Repository purpose - 目的

这个repository的目的是进行NLP领域的数据增强，参考的论文是EDA参考文献：EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks flashtext for chinese ，2019.8

Data augmentation - 数据增强

数据增强包括四种方法：

同义词替换
随机插入
随机交换
随机删除同义词的中文字典来自于https://github.com/Keson96/SynoCN.

Flashtext - 高效替换

在进行数据增强模式时，由于本身的数据和同义词的数据量都比较大，因此需要进行高效的匹配，而非正则表达式的匹配，进而采用了flashtext方法。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
data_augmentation_with_flashtext_chinese ver.py		data_augmentation_with_flashtext_chinese ver.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Repository purpose - 目的

Data augmentation - 数据增强

Flashtext - 高效替换

About

Releases

Packages

Languages

Ailing-Zou/flashtext_chinese_nlp_data_augmentation_eda

Folders and files

Latest commit

History

Repository files navigation

Repository purpose - 目的

Data augmentation - 数据增强

Flashtext - 高效替换

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages