Skip to content

Latest commit

 

History

History
101 lines (76 loc) · 3.45 KB

NLP.md

File metadata and controls

101 lines (76 loc) · 3.45 KB

教程

oxford-cs-deepnlp-2017

资源

DL4NLP---Deep Learning for NLP resources

nlp_tasks---Natural Language Processing Tasks and References

深度学习与自然语言处理实践

opennlp---The Apache OpenNLP library is a machine learning based toolkit for the processing of natural language text.

NLTK--- the Natural Language Toolkit -- is a suite of open source Python modules, data sets, and tutorials supporting research and development in Natural Language Processing.

实战

如何使用Scikit-learn实现用于机器学习的文本数据准备

实战 | 让机器人替你聊天,还不被人看出破绽?来,手把手教你训练一个克隆版的你

Java

ansj_seg---ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

中文自然语言处理工具包 Toolkit for Chinese natural language processing

  • 信息检索: 文本分类 新闻聚类
  • 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别
  • 结构化学习: 在线学习 层次分类 聚类

HanLP提供下列功能:

  • 中文分词
  • 最短路分词
  • N-最短路分词
  • CRF分词
  • 索引分词
  • 极速词典分词
  • 用户自定义词典
  • 词性标注
  • 命名实体识别
  • 中国人名识别
  • 音译人名识别
  • 日本人名识别
  • 地名识别
  • 实体机构名识别
  • 关键词提取
  • TextRank关键词提取
  • 自动摘要
  • TextRank自动摘要
  • 短语提取
  • 基于互信息和左右信息熵的短语提取
  • 拼音转换
  • 多音字
  • 声母
  • 韵母
  • 声调
  • 简繁转换
  • 繁体中文分词
  • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
  • 文本推荐
  • 语义推荐
  • 拼音推荐
  • 字词推荐
  • 依存句法分析
  • 基于神经网络的高性能依存句法分析器
  • MaxEnt依存句法分析
  • CRF依存句法分析
  • 语料库工具
  • 分词语料预处理
  • 词频词性词典制作
  • BiGram统计
  • 词共现统计
  • CoNLL语料预处理
  • CoNLL UA/LA/DA评测工具

python

jieba中文分词

SnowNLP

  • 中文分词(Character-Based Generative Model)
  • 词性标注(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感谢erning)