Skip to content

Clasificación de lemas

Ricardo Palomares edited this page Aug 14, 2023 · 5 revisions

Los archivos de lemas del proyecto RLA-ES se clasifican según varios criterios a saber:

  • Fuente de los lemas.
  • Distribución geográfica de uso.
  • Categoría gramatical de los lemas.

En general, se debe tener en cuenta que la adición de los lemas se hace en orden alfabético por practicidad a la hora de buscar los lemas ya agregado (#38). Se puede usar la utilidad Linux sort -u para este fin.

Fuente de los lemas

Los lemas en este proyecto se pueden clasificar inicialmente en dos grandes categorías según la fuente de la cual se consultan los lemas, y una tercera categoría que se opta por no considerar como perteneciente a estas.

  • Directorio RAE: En este directorio se incluyen aquellos lemas aprobados por la Real Academia Española y que pueden consultarse en el Diccionario de la Lengua Española (DLE).
  • Directorio noRAE: En este directorio se incluyen aquellos lemas aprobados por las academias de la lengua regionales o cuyo uso sea de amplio uso verificable. Este último caso debe tomarse con precaución. Posibles fuentes de consulta:
    • Diccionario de americanismos (DAmer): Publicación realizada por la Asociación de Academias de la Lengua Española (ASALE).
    • Diccionario Panhispánico de dudas (DPD): Publicación realizada por la Real Academia Española. Tiene acceso a la Nueva gramática de la lengua española (2009) y a la Ortografía de la lengua española (2010).
    • Diccionarios de las respectivas academias regionales.
    • Fundación del español urgente (Fundéu BBVA): Fundación promovida por la Agencia Efe, patrocinada por BBVA y asesorada por la RAE, cuyo objetivo es el buen uso del español en los medios de comunicación.
    • Wikilengua del español: Sitio abierto y participativo para compartir información práctica sobre la norma, el uso y el estilo del español y un medio para reflejar la diversidad de una lengua hablada por cientos de millones de personas. Desarrollado por Fundéu. Usar con precaución.
    • Wikcionario en español: la base de datos enlazados libres de la Fundación Wikimedia que puede ser muy interesante para generar vocabularios controlados. Usar con precaución.
    • Wikipedia en español: La enciclopedia libre de la Fundación Wikimedia. Usar con precaución.
    • Wikidata: la base de datos enlazados de la Fundación Wikimedia, una fuente interesante para extraer listas de palabras. Usar con precaución.
    • Diccionarios técnicos: Apropiados para recolectar lemas de distintas especialidades. Usar con precaución.
  • Directorio toponimos: Los topónimos son tipos de nombres propios asociados a lugares geográficos y por ende no se consideran como parte de los lemas RAE o noRAE. Se recomienda consultar los registros oficiales de cada país para la elaboración y actualización de los topónimos según la localización. Para la discusión necesaria sobre la adición de topónimos remitirse a Topónimos en el diccionario y los reportes #38 y #81. Algunas posibles fuentes de topónimos:
    • listados de instituciones públicas (demográficos, administrativos, geográficos, etc), teóricamente de muy alta fiabilidad pero a veces ofrecen algunos datos inexactos o no 100% congruentes con otras fuentes;
    • OpenStreetMap: el mapa internacional confeccionado con datos libres. Según la región los datos pueden tener grados variables de fiabilidad;
    • Wikidata: también contiene topónimos internacionales e internacionalizados. Usar con precaución, especialmente con datos extraídos automáticamente Geonames;
    • Geonames es una base de datos geográficos internacional. Debe usarse con mucha precaución porque está mantenida automáticamente y puede ofrecer datos inexactos.

Distribución geográfica de uso

No todos los vocablos (lemas) de la lengua española tienen un uso universal así puedan ser entendidos eventualmente. Si un lema es de uso "global" en la lengua española, se ubicará en los archivos que hay inmediatamente bajo los directorios mencionados en la clasificación anterior (RAE/*.txt, noRAE/*.txt y toponimos/*.txt).

Si el lema posee un uso regional, este deberá ubicarse en los directorios l10n/es_XX que se encontrarán bajo los directorios mencionados anteriormente. Aquí, XX debe ser reemplazado por el código asociado a la región, en general país, registrado en el Unicode Common Locale Data Repository (CLDR). A continuación la equivalencia correspondiente según las abreviaturas o formas recopiladas en DLE y DAmer.

País DLE DAmer XX
Argentina Arg. Ar AR
Bolivia Bol. Bo BO
Chile Chile Ch CL
Colombia Col. Co CO
Costa Rica C. Rica CR CR
Cuba Cuba Cu CU
Ecuador Ec. Ec EC
El Salvador El Salv. ES SV
España Esp. ES
Estados Unidos EE. UU. EU US
Filipinas Filip. PH
Guatemala Guat. Gu GT
Guinea Ecuatorial GQ
Honduras Hond. Ho HN
México Méx. Mx MX
Nicaragua Nic. Ni NI
Panamá Pan. Pa PA
Paraguay Par. Py PY
Perú Perú Pe PE
Puerto Rico P. Rico PR PR
República Dominicana R. Dom. RD DO
Uruguay Ur. Ur UY
Venezuela Ven. Ve VE

Algunas abreviaturas adicionales y su correspondencia a localizaciones son:

  • Á. Andes: Colombia, Venezuela, Ecuador, Perú, Bolivia, Argentina y Chile.
  • Am.: Argentina, Bolivia, Chile, Colombia, Costa Rica, Cuba, República Dominicana, Ecuador, El Salvador, Guatemala, Honduras, México, Nicaragua, Paraguay, Perú, Panamá, Puerto Rico, Estados Unidos, Uruguay y Venezuela.
  • Am. Cen.: Costa Rica, Cuba, República Dominicana, El Salvador, Guatemala, Honduras, Nicaragua, Panamá y Puerto Rico.
  • Ant. (Antillas): Cuba, Puerto Rico, República Dominicana.
  • And. (Andalucía), Ar. (Aragón), Áv. (Ávila), Bil. (Bilbao), Burg. (Burgos), Can. (Canarias), Các. (Cáceres), Gal. (Galicia), Mad. (Madrid), Mal. (Málaga), Man. (La Mancha), Nav. (Navarra), Sal. (Salamanca), Seg. (Segovia), Sev. (Sevilla), Tol. (Toledo), Val. (Valencia), Vall. (Valladolid), Zam. (Zamora), Zar. (Zaragoza): España

Categoría gramatical de los lemas

Si bien para la mayor parte de los lemas será de uso directo su clasificación en los archivos acorde a la categoría gramatical, algunos casos resultan confusos. Estos casos confusos son aquellos que se explicarán en detalle en esta sección. Para los demás, bastará con saber lo que significa la abreviatura respectiva.

Categoría Abreviatura (DLE/DAmer)
Adjetivos adj.
Adverbios adv.
Artículos art.
Conjunciones conj.
Contracciones contracc.
Expresiones expr.
Interjecciones interj.
Locuciones loc.
Nombres femeninos f.
Nombres masculinos m.
Onomatopeyas onomat.
Preposiciones prep.
Pronombres pron.
Verbos intransitivos intr.
Verbos pronominales prnl.
Verbos transitivos tr.

Algunas acepciones de los lemas en el DLE terminan con la mención "U. t. c." o "U. m. c." seguida de una de las abreviaturas mencionadas, indicando que también es válido su uso con dicha categoría gramatical. La mención "s. m." es equivalente a la categoría "m." y la mención "s. f." es equivalente a la categoría "f.". Para más información puede consultar la sección de notas de uso de la RAE.

Los lemas con la indicación de desuso o poco usado ("desus." o "p. us.") se añaden a los archivos con extensión *.old en lugar de *.txt.

Respecto a las indicaciones de número y género de los adjetivos y nombres en ocasiones es necesario leer las aclaraciones que aparecen antes de las acepciones.

Es necesario aclarar que los lemas se deben incluir en todas las categorías gramaticales que le apliquen (aclaración realizada por @sbosio en #138).

Respecto al uso de los afijos (banderas que acompañan los lemas), revisar la sección de la wiki Añadir afijos a una palabra.

Nombres

La clasificación de los lemas de nombres según el género lleva al uso de cinco archivos. Si el lema presenta morfema de número se indica la bandera S.

  • NombresMasculinos.txt: Son los lemas de nombres cuya acepción en cuestión es masculina exclusivamente. En DLE y DAmer figuran con la abreviatura de "m.".
  • NombresFemeninos.txt: Son los lemas de nombres cuya acepción en cuestión es femenina exclusivamente. En DLE y DAmer figuran con la abreviatura "f.".
  • NombresMasculinosFemeninos.txt: Son los lemas de nombres cuya acepción en cuestión corresponde a los dos géneros con variación del morfema de género. En este caso los lemas deben incluirse en su forma masculina y acompañarse de la bandera G para la creación de la variante femenina. Figuran con la abreviatura "m. y f.". pero el lema indica la variación del morfema.
  • NombresComunes.txt: Son los lemas de nombres cuya acepción corresponde a los dos géneros sin presentar morfema de género y cuyo uso aplica para personas. Figuran con la abreviatura "m. y f.". pero el lema no indica la variación del morfema.
  • NombresAmbiguos.txt: Son los lemas de nombres cuya acepción corresponde a los dos géneros sin presentar morfema de género y cuyo uso aplica para cosas y conceptos. Figuran con la abreviatura "m. o f.".

Los últimos tres casos figuran en las acepciones del DLE como "m. y f." (en DAmer "m-f") y distinguir el archivo depende del contexto del significado y de la indicación del lema (si hay indicación de morfema de género).

De los cinco archivos de nombres, solo en el archivo de NombresMasculinosFemeninos.txt debe figurar la bandera G, la cual debe estar en todos sus lemas.

Discusiones relacionadas son #138 y #142.

Igualmente existe el archivo NombresCompuestos.txt para aquellos lemas que no poseen valor gramatical de manera independiente. Estos casos son los lemas que el DLE redirige solo a formas compuestas y no da una definición del lema individual. Una discusión relacionada es #140.

Verbos

La clasificación de los verbos según la forma de la acción lleva a la generación de archivos individuales y combinados de las tres clasificaciones: transitivos ("tr."), intransitivos ("intr.") y pronominales ("prnl.").

Los casos combinados se producen si el verbo posee múltiples acepciones con la misma distribución geográfica de uso usando las distintas formas o si la misma acepción posee la indicación de las otras formas (en DLE aparece al final de la acepción "U. t. c." o "U. m. c." seguido de la abreviatura de la clase de verbo o en DAmer las clases verbales están separadas por /).

Actualmente se presenta un caso que se reconoce como error pero no se arreglara por las modificaciones que los casos de sufijos que representa, y es la presencia como palabras válidas verbos únicamente pronominales sin enclítico. La discusión relacionada se encuentra en #116. Una breve discusión de las banderas aplicables a los verbos se encuentra en #6.

Extranjerismos

Actualmente se discute en #139 pero se recomiendan los siguientes artículos del sitio de la RAE para su discusión: