GitHub - sino-crdc/Chinese_word_segmenter

主要用于中法创研中心的“文本情感分析器——多功能应用接口”

该中文分词器基于word分词器

word分词器的API可打开 word-1.3 API.html查看
运行demo-word查看分词效果
运行evaluation对分词效果进行评估(评估结果位于target/evaluation目录)
通过计算词的语境来获得相关词
- 用word分词内置语料库：运行word分词项目根目录下的脚本 demo-word-vector-corpus
- 使用自己的文本内容：运行word分词项目根目录下的脚本 demo-word-vector-file
运行sentence-identify判定句子是有意义的人话的可能性
pom.xml: Project Object Model, 内含项目依赖版本
项目部署(Build)后，会出现data文件夹，内可放置分词器所需的外部数据源/目标; logs为项目运行的日志

将项目clone到自己的项目中
修改项目classpath，添加：
- target/word-1.3.jar;
- target/dependency/slf4j-api-1.6.4.jar;
- target/dependency/logback-classic-0.9.28.jar;
- target/dependency/logback-core-0.9.28.jar
修改项目的运行参数虚拟机选项: 在JVM Options添加-Xms1200m -Xmx1200m
修改src中的代码，对word分词器进行操作
需要对word分词器进行修改时候：target
- 一般不修改依赖，生成文件和maven的配置
- 方法一(不推荐): 反编译修改classes或者word-1.3.jar,再编译覆盖
- 方法二: 修改word-1.3-sources.jar然后编译覆盖上面的文件

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
classes/artifacts/word_jar		classes/artifacts/word_jar
src		src
word 1.3 API_files		word 1.3 API_files
.gitignore		.gitignore
.travis.yml		.travis.yml
Chinese_word_segmenter.iml		Chinese_word_segmenter.iml
LICENSE.txt		LICENSE.txt
README.md		README.md
demo-word-vector-corpus.bat		demo-word-vector-corpus.bat
demo-word-vector-corpus.sh		demo-word-vector-corpus.sh
demo-word-vector-file.bat		demo-word-vector-file.bat
demo-word-vector-file.sh		demo-word-vector-file.sh
demo-word.bat		demo-word.bat
demo-word.sh		demo-word.sh
evaluation.bat		evaluation.bat
evaluation.sh		evaluation.sh
mvnw		mvnw
mvnw.cmd		mvnw.cmd
pom.xml		pom.xml
runJar.bat		runJar.bat
sentence-identify.bat		sentence-identify.bat
sentence-identify.sh		sentence-identify.sh
wfs.sh		wfs.sh
word 1.3 API.html		word 1.3 API.html
word.jar		word.jar

Provide feedback