English text here
Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice.
As frases foron cedidas á Universidade de Santiago de Compostela por diferentes institucións públicas ou privadas, ás que agradecemos a colaboración.
Sobre este material, dentro do marco do Proxecto Nós, levouse a cabo unha serie de transformacións: segmentación das frases orixinais, filtrado pola lonxitude e, no seu caso, adaptación para cumprir cos requisitos de Common Voice (normalización de números, abreviacións e siglas, eliminación de palabras estranxeiras, adecuación de contido, corrección gramatical etc.).
Para o preprocesamento e procesamento dos corpus empregáronse os scripts dispoñibles aquí, xunto coa ferramenta Sentence Extractor.
Os corpus resultantes, publicados aquí de forma libre de dereitos, son os seguintes:
166.229 frases extraídas das transcricions dos debates do Parlamento de Galicia durante un periodo de 7 anos (2015-2022). O material orixinal e de acceso público e permite a reproduccion autorizada sempre que se cite a fonte. Ademais das transformacións mencionadas máis arriba, os nomes propios presentes neste corpus foron anonimizados.
166.951 frases extraídas dos guións dos programas de informativos diarios da Televisión de Galicia (TVG) entre os anos 2019-2022.
140.104 frases extraídas dos números do periódico Nós Diario publicados entre os anos 2012-2022.
89.688 frases extraídas dos números do periódico Praza.gal publicados entre os anos 2012-2022.