(click here to read the README in English)
Mae'r project yn datblygu ac yn darparu adnabod lleferydd Cymraeg a ddwyieithog gan ddefnyddio'r dull wav2vec2 [1], [2] a [3]. Defnyddir data o Mozilla Common Voice Cymraeg yn bennaf, gyda sgriptiau'r project hwn, i greu modelau sydd yn trawsgrifio unrhyw leferydd Cymraeg (a Saesneg) yn lledgywir. Mae modd i chi llwytho i lawr y modelau er mwyn defnyddio adnabod lleferydd ar eich cyfrifiadur neu o fewn projectau meddalwedd eich hunain.
Mae'r adnoddau yn y ffolder 'inference' yn ei gwneud hi'n hawdd defnyddio modelau sydd wedi eu hyfforddi'n barod i drawsgrifio lleferydd Cymraeg o fewn ffeiliau sain fach neu fawr neu hyd yn oed o fewn fideos megis ar YouTube. Ewch i inference/README.md am ragor o wybodaeth.
Mae'r adnoddau yn y ffolder 'train' yn hwyluso hyfforddi neu fireinio modelau acwsteg. Mae'r sgriptiau yn cynnwys modd hyfforddi modelau iaith yn ogystal er mwyn gwella cywirdeb canlyniadau trawsgrifio. Gweler train/README.md am ragor o wybodaeth.
Diolch i'r cwmnïau, sefydliadau ac unigolion canlynol sydd wedi ein helpu i wireddu datrysiad adnabod lleferydd Cymraeg mor effeithiol.
- Mozilla a phawb sydd wedi cyfrannu yn hael ac yn wirfoddol drwy gwefan Common Voice, yn enwedig i Rhoslyn Prys (meddal.com) a ymgymerodd â nifer o ymgyrchoedd torfoli ar sail wirfoddol, i'r Mentrau Iaith, Cyngor Gwynedd, Llyfrgell Genedlaethol Cymru a weithiodd gyda Rhoslyn ar rai o'r ymgyrchoedd hyn, ac hefyd i Lywodraeth Cymru.
- Facebook AI am rhannu'r ddull wav2vec2 yn ogystal a modelau amlieithog enfawr wedi'i rhag-hyfforddi. wav2vec 2.0 - Learning the Structure of Speech from Raw Audio
- HuggingFace : Fine-Tune XLSR-Wav2Vec2 for low-resource ASR with 🤗 Transformers
- Parlance Speech Recognition : (https://github.com/parlance/ctcdecode)
- KenLM : (https://github.com/kpu/kenlm)
[1] Alexei Baevski, H. Zhou, Abdel-rahman Mohamed, and Michael Auli. 2020. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations. ArXiv, abs/2006.11477.
[2] Alexis Conneau, Alexi Baevski, Ronan Collobert, Abdelrahman Mohamed and Michael Auli. 2020. Unsupervised Cross-lingual Representation Learning for Speech Recognition. ArXiv, abs/2006.13979.
[3] Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau and Michael Auli. 2021. XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale. ArXiv, abs/2111.09296
[4] Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, and Gregor Weber. 2020. Common Voice: A Massively-Multilingual Speech Corpus. In LREC.
[5] Pedro Javier Ortiz Suárez, Benoît Sagot, and Laurent Romary. 2019. Asynchronous pipelines for processing huge corpora on medium to low resource infrastructures. In CMLC-7 (pp. 9 – 16). Leibniz-Institut für Deutsche Sprache.
Os defnyddiwch chi'r adnodd hwn, gofynnwn yn garedig i chi gydnabod a chyfeirio at ein gwaith. Mae cydnabyddiaeth o'r fath yn gymorth i ni sicrhau cyllid yn y dyfodol i greu rhagor o adnoddau defnyddiol i'w rhannu.
@software{dewi_bryn_jones_2021_5270295,
author = {Dewi Bryn Jones},
title = {{GitHub Repository: techiaith/docker-wav2vec2-cy Speech recognition for Welsh with wav2vec2.}},
month = aug,
year = 2022,
publisher = {Zenodo},
version = {22.10},
doi = {10.5281/zenodo.5270295},
url = {https://doi.org/10.5281/zenodo.5270295}
}