NLP for Hinglish (Code mixed Hindi+English)

This repository contains Language model for Code mixed Hinglish (Hindi and English) - spoken in Indian sub-continent.

Methodology followed in this repo is detailed in this paper, accepted at Dravidian-Codemix-HASOC2020@FIRE2020

Dataset

Synthetically Generated Hinglish Dataset from Wikipedia Articles

Results

Language Model Perplexity (on validation set)

Architecture/Dataset	Synthetically Generated Wikipedia Articles Dataset
ULMFiT	86.48

Visualizations

Word Embeddings

Architecture	Visualization
ULMFiT	Embeddings projection

Pretrained Models

Language Models

Download pretrained ULMFiT LM from here

Tokenizer

Trained tokenizer using Google's sentencepiece

Download the trained model and vocabulary from here

Name	Name	Last commit message	Last commit date
Latest commit goru001 update projector config Oct 11, 2020 11cee9a · Oct 11, 2020 History 4 Commits
dataset-preparation	dataset-preparation	add hinglish dataprep, lm, classifier notebooks	Oct 11, 2020
language_model	language_model	update readme	Oct 11, 2020
tokenizer	tokenizer	add hinglish dataprep, lm, classifier notebooks	Oct 11, 2020
.gitattributes	.gitattributes	add hinglish dataprep, lm, classifier notebooks	Oct 11, 2020
.gitignore	.gitignore	Initial commit	Oct 11, 2020
LICENSE	LICENSE	Initial commit	Oct 11, 2020
README.md	README.md	update projector config	Oct 11, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NLP for Hinglish (Code mixed Hindi+English)

Dataset

Results

Language Model Perplexity (on validation set)

Visualizations

Word Embeddings

Pretrained Models

Language Models

Tokenizer

About

Releases

Packages

Languages

License

goru001/nlp-for-hinglish

Folders and files

Latest commit

History

Repository files navigation

NLP for Hinglish (Code mixed Hindi+English)

Dataset

Results

Language Model Perplexity (on validation set)

Visualizations

Word Embeddings

Pretrained Models

Language Models

Tokenizer

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages