Skip to content

Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice. / Copyright-free (CC0) sentences in Galician, collected by Proxecto Nós in order to contribute to the text corpus of Mozilla Common Voice.

Notifications You must be signed in to change notification settings

proxectonos/nos_gl_CC0

Repository files navigation

English text here

nos_gl_CC0

Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice.

As frases foron cedidas á Universidade de Santiago de Compostela por diferentes institucións públicas ou privadas, ás que agradecemos a colaboración.

Sobre este material, dentro do marco do Proxecto Nós, levouse a cabo unha serie de transformacións: segmentación das frases orixinais, filtrado pola lonxitude e, no seu caso, adaptación para cumprir cos requisitos de Common Voice (normalización de números, abreviacións e siglas, eliminación de palabras estranxeiras, adecuación de contido, corrección gramatical etc.).

Para o preprocesamento e procesamento dos corpus empregáronse os scripts dispoñibles aquí, xunto coa ferramenta Sentence Extractor.

Os corpus resultantes, publicados aquí de forma libre de dereitos, son os seguintes:

CORPUS PG

166.229 frases extraídas das transcricions dos debates do Parlamento de Galicia durante un periodo de 7 anos (2015-2022). O material orixinal e de acceso público e permite a reproduccion autorizada sempre que se cite a fonte. Ademais das transformacións mencionadas máis arriba, os nomes propios presentes neste corpus foron anonimizados.

CORPUS CRTVG

166.951 frases extraídas dos guións dos programas de informativos diarios da Televisión de Galicia (TVG) entre os anos 2019-2022.

CORPUS NÓS DIARIO (SERMOS GALIZA)

140.104 frases extraídas dos números do periódico Nós Diario publicados entre os anos 2012-2022.

CORPUS PRAZA.GAL

89.688 frases extraídas dos números do periódico Praza.gal publicados entre os anos 2012-2022.

About

Frases con licenza libre (CC0) en galego, recollidas polo Proxecto Nós co fin de alimentar o corpus textual de Mozilla Common Voice. / Copyright-free (CC0) sentences in Galician, collected by Proxecto Nós in order to contribute to the text corpus of Mozilla Common Voice.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published