-
Notifications
You must be signed in to change notification settings - Fork 2
/
README
36 lines (28 loc) · 1.77 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
文件说明:
1.corpus:保存原始语料
2.train:为提取过的训练语料特征
标签说明:
W-i:左边第i个单词(W为单词,-i为左边位置)
Wi :右边边第i个单词(W为单词,i为右边边位置)
T-i:左边第i个单词的POS(T为单词,i为左边位置)
Ti :右边第i个单词的POS
NULL_HEAD: 左边指定位置属性不存在的空缺标签
NULL_TAIL:右边指定位置属性不存在的空缺标签
最后一个为所属的意思,集训练结果
PW:被嵌入的短语(如果有的话)
PT:短语的POS
所有属性/最后意思之间使用“ | ”(空格 竖线 空格)分开
3.test:为提取的测试语料特征
所有标签与 train 中相同,
唯一区别:最后一个词为测试句子标签(主要是因为答案形式需要句子标签)
namefile: 按顺序记录类原始训练语料中单词出现的顺序(也是为与答案顺序一致),做测试集时按顺序处理,输出
4.result:存储输出结果
test_answer 为标准答案,用于评测
5.src:源文件中有
util: 提供类简单的filename读取方法, 评估结果方法
使用说明:
1.Feature_Extractor.py: 特征提取脚本,按说明设置extract()函数参数可以提取各种特征组合;
2.NB.py:朴素贝叶斯模型,可以直接运行,也可以设置平滑参数smooth_rate调试运行;
3.ANN_main.py:人工神经网络模型,可以设置隐藏层结点数量HiddenNum,迭代次数itNum,学习率learningRate,调试运行;
4.max_entropy.py:最大熵模型,可以设置algorithm--优化算法(iis,gis)和max_iter--最大迭代次数,调试运行;
5.svm.py:支持向量机,可设置惩罚系数C=10.0, 核函数参数gamma=0.0001,调试运行