人民日报语料库处理工具集

包含人民日报语料相关的处理脚本。输出的格式为类似 CoNLL-U 格式

处理流程

文件编码格式转换
解析并转化语料库

这里详细介绍一下 解析并转化语料库 这一部分

解析语料库

因为原始的人民日报语料库格式存在嵌套语法等，导致其难以用规则的方法解析，这里使用了基于 ply 的 lex + yacc 的语法解析方案。

转换语料库（仅应用于 NER 数据）

1998语料库标注人名时，将姓和名分开标注，因此需要合并姓名，比如 王/nrf 小明/nrg 应该合并成 王小明/nr
中括号括起来的几个词表示大粒度分词，表意能力更强，需要将括号内内容合并，比如 [中央/n 人民/n 广播/vn 电台/n]nt 应该合并成 中央人民广播电台/nt
时间合并，例如将”1997年/t 3月/t” 合并成”1997年3月/t”
全角字符统一转为半角字符，尤其是数字的表示，比如：1９９８年/t 应该转换成 1998年/t

使用

预料下载

人民日报语料库是版权材料，本仓库不提供原始的人民日报语料库，但是用户登录官方网站后可以自行下载（任何人都可以注册）。

请访问现代汉语多级加工语料库, 注册用户后方可下载语料库。请下载 5-199801基本标注语料库-2003年版规范-20170612.rar ，解压缩后将文件 1998-01-2003版-带音.txt 放置到 ./data 目录下。

运行脚本

环境要求：python >= 3.5

安装依赖

pip install -r ./requirements.txt

转换文件编码

原始文件采用的是 gbk，需要将其转换成 utf-8 编码

python ./convert_encoding.py

默认输入和输出

默认输入文件：data/1998-01-2003版-带音.txt
输出文件：data/raw_data.txt

解析并转化语料库

将原始的语料库格式解析并转换成类似 CoNLL-U 格式

python ./parse_data.py

运行结束后，将得到文件 ./data/xxx.conllu

默认情况下，运行此文件将得到两个文件：data_False-True-True-False-False-False-False.conllu 和 data_False-True-True-True-True-True-False.conllu

文件名中的 True False 对应着选项 merge_sub_token、remove_geta_symbol、extract_first_token_as_document_id、merge_family_name、merge_time、replace_double_byte_punctuation 和 output_doc_id 的启用或者关闭。

data_False-True-True-False-False-False-False.conllu 是为了后续分词任务而准备的，它关闭了某些合并操作。

data_False-True-True-True-True-True-False.conllu 是为了后续 ENR 任务而准备的，它应用了某些合并操作。

默认输入和输出

输入文件：data/raw_data.txt
输出文件：data/conllu/data_False-True-True-False-False-False-False.conllu 和 data/conllu/data_False-True-True-True-True-True-False.conllu

CoNLL-U 格式介绍

TODO @ http://universaldependencies.org/format.html

分割 train / dev / test

python ./split_data.py

默认按照 train 90% / dev 0% / test 10% 做的分割，所得到的文件分别为 train.conllu dev.conllu test.conllu ，位于 ./data/split_data 目录中。

默认输入和输出

输入文件：data/conllu/data_False-True-True-True-True-True-False.conllu
输出文件：data/split_data/train.conllu、data/split_data/dev.conllu 和 data/split_data/test.conllu

命名实体识别

原始的人民日报语料库中不包含实体信息，但是有 POS 信息，根据人民日报语料库的标注标准，特定类别的名词被标记成了特殊的 POS, 因此可以利用这些信息来完成提取实体的工作。根据1998语料库的词性标记说明，词性标记：t、nr、ns 和 nt 依次对应的实体是时间（DATE）、人名（PERSON）、地名（GPE）、组织机构名（ORG, organization）。

本项目的 NER 标记系统支持:

BILUO，在 The BILUO Scheme 中详细的介绍了这个标记系统。
BIO, 在 Coding Chunkers as Taggers: IO, BIO, BMEWO, and BMEWO+ 中详细的介绍了这个标记系统。

默认使用的 BIO 系统。

CRF++ 格式

CRF 系统所需的格式与 CoNLL-U 格式不太一致（CoNLL-U 格式比 CRF 格式多第一列的 index），需要经过转换。

基于词（word)的 NER

python ./conll_to_word_crfpp.py

所得到的文件位于 ./data/split_crfpp 目录中。

默认输入和输出

输入文件：data/split_data/train.conllu、data/split_data/dev.conllu 和 data/split_data/test.conllu
输出文件：data/split_crfpp/train.txt、data/split_crfpp/dev.txt 和 data/split_crfpp/test.txt

所得文件样例如下：

１９９７年  B-DATE
的  O
最后  O
一  O
天  O
，  O
得克萨斯州  B-GPE
联邦  O
地方  O
法官  O
肯代尔  B-PERSON
的  O

基于字（char)的 NER

python ./conll_to_char_crfpp.py

所得到的文件位于 ./data/split_char_crfpp 目录中。

默认输入和输出

输入文件：data/split_data/train.conllu、data/split_data/dev.conllu 和 data/split_data/test.conllu
输出文件：data/split_char_crfpp/train.txt、data/split_char_crfpp/dev.txt 和 data/split_char_crfpp/test.txt

所得文件样例如下：

１  B-DATE
９  I-DATE
９  I-DATE
７  I-DATE
年  L-DATE
的  O
最  O
后  O
一  O
天  O
，  O
得  B-GPE
克  I-GPE
萨  I-GPE
斯  I-GPE
州  L-GPE
联  O
邦  O
地  O
方  O
法  O
官  O
肯  B-PERSON
代  I-PERSON
尔  L-PERSON
的  O

中文分词

空白分割格式

python ./split_data_to_token.py

所得到的文件分别为 train.txt dev.txt test.txt ，位于 ./data/split_token 目录中。

CRF++ 格式

python ./split_token_to_token_conll.py

所得到的文件分别为 train.txt dev.txt test.txt ，位于 ./data/split_conll 目录中。

TODO

增加自定义输入输入的 CLI 入口

致谢

转换语料库 部分参考了文章达观数据如何打造一个中文NER系统的内容

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
CorpusToolkit		CorpusToolkit
media		media
.DS_Store		.DS_Store
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.adoc		README.adoc
all_in_one.bash		all_in_one.bash
conll_to_char_crfpp.py		conll_to_char_crfpp.py
conll_to_word_crfpp.py		conll_to_word_crfpp.py
convert_encoding.py		convert_encoding.py
corpus.py		corpus.py
get_token_data.py		get_token_data.py
parse_data.py		parse_data.py
requirements.txt		requirements.txt
split_data.py		split_data.py
split_data_to_token.py		split_data_to_token.py
split_token_to_token_conll.py		split_token_to_token_conll.py
token.txt		token.txt
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

人民日报语料库处理工具集

处理流程

解析语料库

转换语料库（仅应用于 NER 数据）

使用

预料下载

运行脚本

安装依赖

转换文件编码

解析并转化语料库

CoNLL-U 格式介绍

分割 train / dev / test

命名实体识别

CRF++ 格式

基于词（word)的 NER

基于字（char)的 NER

中文分词

空白分割格式

CRF++ 格式

TODO

致谢

参考文献

About

Releases

Packages

Languages

License

howl-anderson/tools_for_corpus_of_people_daily

Folders and files

Latest commit

History

Repository files navigation

人民日报语料库处理工具集

处理流程

解析语料库

转换语料库（仅应用于 NER 数据）

使用

预料下载

运行脚本

安装依赖

转换文件编码

解析并转化语料库

CoNLL-U 格式介绍

分割 train / dev / test

命名实体识别

CRF++ 格式

基于词（word)的 NER

基于字（char)的 NER

中文分词

空白分割格式

CRF++ 格式

TODO

致谢

参考文献

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages