Dyma ryddhau lecsicon cynhwysfawr o eirffurfiau Cymraeg, eu lemâu (=ffurfiau cysefin) cyfatebol, eu rhannau ymadrodd a'u nodweddion morffolegol yn rhydd o dan drwydded CC0 yn y gobaith y bydd yn sbarduno datblygiad technolegau iaith Cymraeg. Cafodd y Lecsicon ei diweddaru gyda thros 1500 o ffurfiau newydd (gan gynnwys ‘nanowyddoniaeth’, ‘bragmataidd’ a ‘chamgarcharu’) yn Hydref 2021, yn bennaf er mwyn ymgorffori geiriau o dermau safonol Cymraeg.
Cafodd y Lecsicon ei diweddaru eto gyda thros 500 o ffurfiau newydd (gan gynnwys ‘cosmolegol’, ‘sgrinlun’ a ‘ansensitifrwydd’) yng Ngorffennaf 2022.
Cafodd y Lecsicon ei diweddaru eto gyda thros 300 o ffurfiau newydd ym mis Hydref 2023. Mae'r diweddariad yn cynnwys ffurfiau cysefin (gan gynnwys ‘actiwari’, ‘biodreulio’ a ‘seiberfwlio’), eu treigliadau a'u lluosogion, yn ogystal â 98 enw lle rhyngwladol (megis 'Irac').
Ffynhonnell wreiddiol y data yw'r lecsicon Cymraeg a luniwyd i'w ddefnyddio o fewn Cysill, y gwirydd sillafu a gramadeg Cymraeg poblogaidd a grewyd ym Mhrifysgol Bangor. Wrth ei ryddhau, rydym wedi trosi'r data o fformat cymhleth a chynnil a luniwyd i ymdopi â chyfyngiadau cof cyfrifiaduron y 90au i fformat llawnach sy'n fwy hylaw ac yn haws ei darllen. Ar ben hynny, rydym wedi ychwanegu nifer o eirffurfiau sydd wedi ymddangos yn fwy diweddar yn yr iaith, gan ddefnyddio ein corpora iaith fel ffynhonnell (am ragor o wybodaeth, gweler Model Word2vec Cymraeg: cynrychioliad fector o gydberthynas semantig geiriau Cymraeg ar sail eu mewnblaniadau o fewn corpws enfawr Cymraeg (Prys a Watkins, 2021:86-106)).
Mae'r ffeil wedi'i threfnu gydag un geirffurf i bob llinell, ynghyd â'r lemma, y rhan ymadrodd, a'r nodweddion morffolegol.
Dyma enghraifft o'r data:
alwad galwad NOUN Gender=Fem,Masc|Mutation=SM
alwadau galwad NOUN Mutation=SM|Number=Plur
galwad galwad NOUN Gender=Fem,Masc
galwadau galwad NOUN Number=Plur
ngalwad galwad NOUN Gender=Fem,Masc|Mutation=NM
ngalwadau galwad NOUN Mutation=NM|Number=Plur
Galway Galway PROPN NameType=Geo
alwedig galwedig ADJ Degree=Pos|Mutation=SM
galwedig galwedig ADJ Degree=Pos
ngalwedig galwedig ADJ Degree=Pos|Mutation=NM
Ceir enghreifftiau defnydd yn y project cysylltiedig:
https://github.com/techiaith/lecsicon-cymraeg-bangor-enghreifftiau
Mae'r rhain yn cynnwys enghreifftiau o sut i barsio'r ffeil yn effeithlon, fel yn trie.py.
Gan fod y set o dagiau rhannau ymadrodd a ddefnyddir gan Cysill yn benodol ar gyfer anghenion y rhaglen honno, troswyd y data i ddefnyddio tagiau rhan ymadrodd a nodweddion cyfoes yn seiliedig ar yr hyn a ddefnyddir gan fframwaith rhyngwladol Universal Dependencies (http://universaldependencies.org) 1. Ceir crynodeb o'r tagiau isod. Mantais defnyddio'r tagiau a nodweddion hyn yw bod y data bellach yn defnyddio set gyffredinol, gydnabyddedig o dagiau a nodweddion sy'n annibynol o iaith benodol ac yn debyg o fod yn gyfarwydd i ddatblygwyr sy'n gweithio ar NLP o fewn amgylchedd amlieithog.
Dyma'r tagiau a'r nodweddion a ddefnyddir yn y data:
ADJ
Degree
Cmp
Equ
Pos
Sup
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Numform
Word
Numtype
Ord
Position
Prenom
ADP
-
-
AdpType
Prep
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
1
2
3
Style
Coll
Form
ADV
-
-
Mutation
AM
NM
SM
AUX
CCONJ
CONJ
-
-
Mutation
AM
SM
DET
-
-
Definite
Def
Mutation
AM
HM
NM
SM
PronType
Art
INTJ
-
-
NOUN
-
-
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Coll
Plur
Sing
NUM
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Numform
Word
Numtype
Card
PART
-
-
PronType
Neg
PRON
-
-
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
1
2
3
Polite
Form
Inf
Poss
Yes
PronGender
Masc
PronType
Dem
Int
Prs
Rel
Style
Arch
Coll
Form
PROPN
Mutation
AM
HM
NM
SM
NameType
Geo
Prs
PUNCT
SCONJ
SYM
VERB
-
-
Mood
Imp
Ind
Sub
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
0
1
2
3
Relative
Rel
Style
Arch
Coll
Form
Tense
Fut
Imp
Past
Pqp
Pres
X
Noder na cheir enghreifftiau o SYM, PUNCT ac X yn y data gan na ddefnyddir y tagiau hynny ar gyfer geirffurfiau geiriadurol, ac mai CONJ yn unig a ddefnyddir gennym ar hyn o bryd yn hytrach na SCONJ a CCONJ. Gweler (http://universaldependencies.org) am fanylion pellach.
Un o nodweddion hynod y Gymraeg yw ei bod yn defnyddio'r un ffurfiau berfol ar gyfer yr amser presennol a'r amser dyfodol (cymharer 'fe ganaf gân' (='I will sing a song') a 'safaf yma o'ch blaen heddiw' (='I stand here before you today'). Er mai'r duedd yn ymarferol yw gwahaniaethu rhwng yr amseroedd hyn trwy ddefnyddio ffurfiau cwmpasog y ferf wrth gyfleu'r presennol ('rwy'n sefyll yma o'ch blaen heddiw'), rydym wedi cynnwys yr un ffurfiau a'r amser dyfodol cryno fel ffurfiau'r dyfodol er mwyn sicrhau bod y bwlch hwnnw yn y rhediad yn llawn.
Noder fod gan y ferf 'bod' amryw o ffurfiau sy'n rhannu'r un bwlch yn y rhediad, megis 'mae', 'oes' a 'sydd'. Lle'r oedd hynny'n bosib, rydym wedi gwahaniaethu rhyngddynt yn y maes Nodweddion.
Mae i'r Gymraeg wahanol gyweiriau, ac er i'r rheiny gael rhywfaint o gynrychioliad yn y data, mae'n werth cofio mai data o wirydd sillafu a gramadeg a geir yma a bod ffurfiau mwy tafodieithol a hynod lafar yn brin o fewn y cofnodion.
Nid oedd Cysill yn rhedeg ansoddeiriau afreolaidd fel da, cystal, gwell felly nid yw'r ffurfiau hynny wedi'u cysylltu yn y data ar hyn o bryd.
Un hynodrwydd sydd i Universal Dependencies yw y gall rhai o'r tagiau gael blaenoriaeth dros dagiau eraill perthnasol a'u disodli. Er enghraifft, pan fydd arddodiad fel 'gan' yn gweithredu fel cysylltair, fel cysylltair y caiff ei dagio o ddilyn Universal Dependencies. Digwydda'r un peth gyda rhagenwau a banodolion, a chyda'r tag ar gyfer berfau cynorthwyol a berfau. Yn y data, rydym wedi cadw at y rhannau ymadrodd gwaelodol.
Mae hwn yn gasgliad gwerthfawr o eirfa'r iaith, a'n gobaith yw y bydd yn ddefnyddiol i sawl un ac mewn sawl ffordd. Fodd bynnag, mae iaith, a'r modd y caiff ei ddehongli, yn newid yn gyson, â'n bwriad felly fydd ychwanegu ato a'i ddiwygio. Croesawn unrhyw gyfraniadau neu awgrymiadau a fydd yn gwella'r adnodd hwn.
Er ein bod yn rhyddhau'r data hwn o dan drwydded CC0, gofynwn yn garedig i chi ystyried rhoi cydnabyddiaeth i'r gwaith hwn. Mae derbyn y fath gydnabyddiaeth yn ein cynorthwyo i ddenu rhagor o gyllid i'n galluogi i ddatblygu a rhannu adnoddau technoleg iaith Cymraeg.
Os defnyddiwch chi'r adnodd hwn, gofynnwn yn garedig i chi gydnabod a chyfeirio at ein gwaith. Mae cydnabyddiaeth o'r fath yn gymorth i ni sicrhau cyllid yn y dyfodol i greu rhagor o adnoddau defnyddiol i'w rhannu.
@misc{gareth_watkins_2021_5211667,
author = {Gareth Watkins and
Gruffudd Prys and
Dewi Bryn Jones},
title = {{techiaith/lecsicon-cymraeg-bangor: Lecsicon
Cymraeg Prifysgol Bangor // Bangor University
Welsh Language Lexicon}},
month = feb,
year = 2021,
publisher = {Zenodo},
version = {21.02},
doi = {10.5281/zenodo.5211667},
url = {https://doi.org/10.5281/zenodo.5211667}
}
Ni fyddai'r adnodd hwn wedi bod yn bosib heb waith diflino ein rhagflaenwyr, yn eu plith Cathair O Dochartaigh, Dafydd Roberts, Nick Ellis, Bill Hicks a Menna Morgan.
This is a comprehensive lexicon of Welsh forms, their corresponding lemmas (= base forms), their parts of speech and morphological features, freely released under the CC0 license in the hope that it will stimulate the development of Welsh language technologies. The Lexicon was updated with over 1500 new forms (including ‘nanowyddoniaeth’, ‘bragmataidd’ and ‘chamgarcharu’) in October 2021, mainly to incorporate words from standard Welsh terms.
The Lexicon was updated with an additional 500 new forms (including ‘cosmolegol’, ‘sgrinlun’ and ‘ansensitifrwydd’) in July 2022.
The Lexicon was updated with over 300 new forms in October 2023. The update includes headword forms (including actiwari’, ‘biodreulio’ a ‘seiberfwlio’), along with their mutated and plural forms, and also includes 98 international placenames (such as 'Irac').
The source of the data is the Welsh lexicon designed for use within Cysill, the popular Welsh spelling and grammar checker created at Bangor University. In releasing this resource, we have converted the data from a complex format designed to cope with the memory limitations of 90s computers to a fuller format that is more manageable and easier to read. In addition, we have added a number of wordforms that have appeared more recently in the language, using our language corpora as a source (for more information, see Welsh Word2vec model: vector representation of the semantic correlation of Welsh words based on their embeddings within an enormous Welsh corpus (Prys and Watkins, 2021:86-106)).
The file is organized with one wordform per line, along with the lemma, part of speech, and morphological features.
Here’s an example of the data:
alwad galwad NOUN Gender=Fem,Masc|Mutation=SM
alwadau galwad NOUN Mutation=SM|Number=Plur
galwad galwad NOUN Gender=Fem,Masc
galwadau galwad NOUN Number=Plur
ngalwad galwad NOUN Gender=Fem,Masc|Mutation=NM
ngalwadau galwad NOUN Mutation=NM|Number=Plur
Galway Galway PROPN NameType=Geo
alwedig galwedig ADJ Degree=Pos|Mutation=SM
galwedig galwedig ADJ Degree=Pos
ngalwedig galwedig ADJ Degree=Pos|Mutation=NM
Example usage can be seen in the associated project:
https://github.com/techiaith/lecsicon-cymraeg-bangor-enghreifftiau
These include examples of how to parse the file contents efficiently, as seen in trie.py.
As the set of part of speech tags used by Cysill are specific to that program's needs, the data has been converted to use part of speech tags and contemporary features based on that used by the Universal Dependencies international framework (http: // universaldependencies .org)1. The tags are summarized below. The benefit of using these tags and features is that the data now uses a general, recognized set of tags and features that are independent of specific language and likely to be familiar to developers working on NLP within a multilingual environment.
The Attributes used, sorted by tag for which each feature was used, are:
ADJ
Degree
Cmp
Equ
Pos
Sup
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Numform
Word
Numtype
Ord
Position
Prenom
ADP
-
-
AdpType
Prep
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
1
2
3
Style
Coll
Form
ADV
-
-
Mutation
AM
NM
SM
AUX
CCONJ
CONJ
-
-
Mutation
AM
SM
DET
-
-
Definite
Def
Mutation
AM
HM
NM
SM
PronType
Art
INTJ
-
-
NOUN
-
-
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Coll
Plur
Sing
NUM
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Numform
Word
Numtype
Card
PART
-
-
PronType
Neg
PRON
-
-
Gender
Fem
Masc
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
1
2
3
Polite
Form
Inf
Poss
Yes
PronGender
Masc
PronType
Dem
Int
Prs
Rel
Style
Arch
Coll
Form
PROPN
Mutation
AM
HM
NM
SM
NameType
Geo
Prs
PUNCT
SCONJ
SYM
VERB
-
-
Mood
Imp
Ind
Sub
Mutation
AM
HM
NM
SM
Number
Plur
Sing
Person
0
1
2
3
Relative
Rel
Style
Arch
Coll
Form
Tense
Fut
Imp
Past
Pqp
Pres
X
Note that the data does not contan examples of PUNCT, SYM and X as these are not used for lexical items. In addition, we curently use CONJ exclusively, rather than SCONJ and CCONJ.
A distinctive feature of the Welsh language is that it uses the same verb forms for the present and future tense (compare 'fe ganaf gân' (= 'I will sing a song') and 'safaf yma o'ch blaen heddiw' (=' I stand here before you today '). Although the tendency in practice is to distinguish these tenses by using the periphrastic construction when conveying the present ('rwy'n sefyll yma o'ch blaen heddiw'), we have included the short form present tense as future forms to ensure that that gap in the conjugation is fully filled.
Note that the verb 'bod' has several forms that share the same space in the conjugation, such as 'mae', 'oes' and 'sydd'. Where possible, we have disambiguated these forms in the Attributes field.
The Welsh language has different registers, and although these have some representation in the data, it is worth remembering that the data here is from a spellchecker and grammar checker and that more dialectal and colloquial forms are rare within the records.
Adjectives: degree of comparison Cysill does not conjugate irregular adjectives as ‘da’ (good), ‘cystal’ (as good), ‘gwell’ (better) so those forms are not currently linked in the data.
One peculiarity of Universal Dependencies is that some of the tags can take precedence over, and replace other relevant tags. For example, when a prefix such as 'gan' (by) acts as a conjunction, it is tagged as a conjunction when following Universal Dependencies. The same thing happens with pronouns and determiners, and with the tag for auxiliary verbs and verbs. In the data, we have kept the underlying parts of speech.
This is a valuable collection of the vocabulary of the Welsh language, which we hope will be useful to many and in many ways. However, language, and the way it is interpreted, is constantly changing, so it is our intention to add to it and to revise it. We welcome any contributions or suggestions that will improve this resource.
While we are releasing this data under the CC0 licence, should you use this resource, we kindly ask you to consider acknowledging our work. Doing so helps us secure future funding to create more useful Welsh language technology resources to share.
@misc{gareth_watkins_2021_5211667,
author = {Gareth Watkins and
Gruffudd Prys and
Dewi Bryn Jones},
title = {{techiaith/lecsicon-cymraeg-bangor: Lecsicon
Cymraeg Prifysgol Bangor // Bangor University
Welsh Language Lexicon}},
month = feb,
year = 2021,
publisher = {Zenodo},
version = {21.02},
doi = {10.5281/zenodo.5211667},
url = {https://doi.org/10.5281/zenodo.5211667}
}
This resource would not have been possible without the tireless work of our predecessors, including Cathair O Dochartaigh, Dafydd Roberts, Nick Ellis, Bill Hicks and Menna Morgan.
It should be noted, however, that we decided not to strictly follow the method used by Dr Johannes Heinecke in applying Universal Dependencies tags to the Welsh language as used in his Welsh Language Syntax Corpus. Where possible, we kept to the tags he used (using 'SM' for 'Mutation' rather than 'Soft', for example), but decided to stick to the more conservative interpretation of 20th century scholars such as Stephen J. Williams, Melville Richards and D. Simon Evans. This was largely due to pragmatic reasons. This is the model that Cysill's data seems to follow in terms of verb conjugation (and not those of more recent scholars such as David Thorne and Peter Wynn Thomas). In addition, while Heinecke always treats verbnouns as nouns, we believe that enabling the distinction between verb and nominal use of the infinitive at the level of the part of speech tag is important. This will allow a product that builds on the output of part of speech taggers (such as the intent parsing software within the Macsen peripheral assistant) to behave as expected. Another deliberate difference is the use of the PART tag for the 'yn' found in 'rwyf yn canu'. This is partly to preserve AUX for auxiliary verbs, treating 'yn' as a prepositional word in the 'to' pattern in English (cf 'to jump'), but we recognize that there is justification for treating this 'yn' as AUX when following Universal Dependencies guidelines because of its function as a word that contributes information about the tense of the surrounding verb (compare 'I am moving' and 'I have moved'). We stress that we pursued this approach for pragmatic reasons concerning the anticipated use of this data in practical NLP tasks. We gratefully acknowledge Dr Johannes Heinecke's research prowess in this area in dealing with the syntax of time discussion, but judge to some extent that we use the same tools for a slightly different purpose. Our hope of laying an alternative foundation here is that it will be possible to discuss and co-operate where appropriate, while recognizing that everyone's goal is not the same.
Footnotes
-
Noder fodd bynnag i ni benderfynu peidio dilyn yn gaeth y defnydd o dagiau Universal Dependencies a wneir gan Dr Johannes Heinecke yn ei Gorpws Cystrawennol o'r Gymraeg. Lle'r oedd modd, cadwom at y tagiau a ddefnyddwyd ganddo (gan ddefnyddio 'SM' ar gyfer 'Mutation' yn hytrach na 'Soft', er enghraifft), ond penderfynom gadw at y dehongliad mwy ceidwadol a geir yng ngwaith ysgolheigion o'r 20fed ganrif fel Stephen J. Williams, Melville Richards a D. Simon Evans. Rhesymau pragmataidd oedd yn bennaf gyfrifol am hyn. Dyma'r model y mae'n ymddangos i ddata Cysill ei ddilyn o ran rhediadau berfol (ac nid rhediadau ysgolheigion mwy diweddar fel David Thorne a Peter Wynn Thomas). Yn ogystal, tra bo Heinecke yn trin berfenwau fel enwau (=nouns) bob tro, credwn fod galluogi gwahaniaethu rhwng defnydd berfol ac enwol o'r berfenw ar lefel y tag rhan ymadrodd yn bwysig. Bydd hynny'n galluogi i gynnyrch sy'n adeiladu ar ben allbwn tagwyr rhan ymadrodd (fel y meddalwedd parsio bwriad o fewn cynorthwydd peronol Macsen) ymddwyn fel y disgwylid iddo wneud. Gwahaniaeth arall bwriadol yw'r defnydd o'r tag PART ar gyfer yr 'yn' a geir yn 'rwyf yn canu'. Gwneir hyn yn rhannol er mwyn cadw AUX ar gyfer berfau cynorthwyol, gan drin 'yn' fel geiryn rhagferfol ar batrwm 'to' yn Saesneg (cf 'to jump'), ond cydnabyddwn fod cyfiawnhad dros drin yr 'yn' hwn fel AUX o ddilyn canllawiau Universal Dependencies oherwydd ei swyddogaeth fel gair sy'n cyfrannu gwybodaeth am amser y ferf gwmpasog (cymharer 'rwyf yn symud' a 'rwyf wedi symud'). Pwysleisiwn i ni ddilyn y trywydd hwn am resymau pragmataidd yn ymwneud â'r defnydd a ragwelir o'r data hwn mewn tasgau NLP ymarferol. Rydym yn cydnabod yn ddiolchgar flaengaredd ymchwil Dr Johannes Heinecke yn y maes hwn wrth ymwneud â chystrawen trafod amser, ond yn barnu i raddau ein bod yn defnyddio'r un arfau at fwriad ychydig yn wahanol. Ein gobaith o osod sylfaen amgen yma yw y bydd modd cyd-drafod a chydweithredu lle bo hynny'n briodol, gan gydnabod nad yr un yw nod pawb. ↩