Objetivo del curso: El objetivo de este curso es comprender de manera teórica y práctica algunas técnicas utilizadas en NLP (Natural Language Processing). En particular, nos enfocaremos en los modelos neuronales del lenguaje para representar palabras en un espacio vectorial, así como en las técnicas espectrales para agrupamiento (clustering) de textos.
-
Introducción a la representación vectorial de palabras
- Los retos de procesar el lenguaje humano
- Modelos de espacio vectorial para representar palabras.
- Arquitectura de Word2Vec
- Técnicas de sub-muestreo
- Otros arquitecturas neuronales para representar palabras
- Implementación de la arquitectura Word2Vec (práctica)
-
Técnica espectral para clustering
- Problemática de representaciones de alta dimensionalidad
- Relajación espectral
- Graph kernels
- La matriz Laplaciana de una gráfica
- Aplicación del método para agrupar documentos (práctica)
Curso impartido por Ximena Gutiérrez y Víctor Mijangos, colaboradores de la Comunidad Elotl. UNAM, 2019