v1.6.5跨平台稳定的自定义词性
Pre-release
Pre-release
Pre-release测试版
- 重构Nature枚举为类,避免反射,兼容最新JDK:#866
- 新增感知机分类器,基于此实现人名性别识别
- 新增一阶、二阶HMM
- 新增中文分词评测工具
- 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
- IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
- IOUtil.loadDictionary支持标记整个词典的默认词性
- DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
- 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
- 微调人名识别模型、删除错误词条
- 修订CharTable,删除橙子和橘子的不合理的转换 @linuxsong
- 数据包 data-for-1.6.4.zip
md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包,请fork
并git clone
一份仓库中的最新data。 - Portable版同步升级到v1.6.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.5</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!