forked from hightman/scws
-
Notifications
You must be signed in to change notification settings - Fork 0
/
ChangeLog
188 lines (152 loc) · 7.12 KB
/
ChangeLog
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
ChangeLog.old
================
$Id$
======================================================================
======== 自 1.2.1 起本文件不再更新, 更新日志见 git 提交日志 ==========
======================================================================
2012-3-29
--------------
* 版本号升级为 1.2.0,同时提供包含 5.4.x 在内的更多的 win32 扩展 dll
* 修正 PHP 扩展代码在 php-5.4.x WIN32 平台编译通不过的问题
2012-3-20
--------------
* libscws 增加 scws_fork() 接口用于产生分支实例用于多线程目的,但和父
* 实例保持共享同一个词典、规则集。注意:对 fork 实例调用词典规则集加载
* 将直接作用于父实例,如果提前销毁父实例再调用 fork 实例分词则会导致内存错误。
2012-3-5
--------------
* 修改 phpext/ 代码以兼容 PHP5.4 编译
* 修正 phpext 中 scws_get_tops 的 limit 参数少于 10 自动为 10 的问题
2011-12-26
--------------
* 明确使用 BSD 协议发布新版本
2011-12-24
--------------
* 版本号升级为 1.1.9 择日编译好 win32 的 dll 正式释出
2011-12-23
--------------
* 深度优化复合分词中的 SCWS_MULTI_SHORT 选项使之更为合理符合全文检索的需求
* 测试脚本中自动加载当前目录的 dict_user.txt 作为自定义词典方便调试
2011-10-26
--------------
* 修正 scws.c 中 __PARSE_XATTR__ 的 bug 导致 scws_get_tops 和 scws_get_words中 xattr 参数表现不正确的问题
2011-08-04
--------------
* 在 scws.c 中移除关于 jabberd2s10 的注释, 仅仅是早期的 pool.c 参考
2011-07-31
--------------
* 给一些可独立使用的 .h 文件添加 c++ 的 extern "C" 标记 xdb.h,xdict.h,xtree.h,pool.h,darry.h
2011-07-30
--------------
* 修改英语专有名词的识别方式, 原先 X.Y.Z 必须字母全大写,现也允许小写
* 开始提供 VC9 编译的 thread-safe 版本的 php_scws.dll
* 版本号升为 1.1.8
2011-06-30
--------------
* 修改 congiure.in 在 ---enable-developer 选项的处理方式,不覆盖预设的 CFLAGS
2011-06-03
--------------
* 改变数字字母单独成词时的规则,当其中同时包含2个连续字母以及2个连续数字时强制拆分。
例:原先单独的 iso9001 是整词,新规则切为 iso+9001 而 i9001 则保持不变仍为。这样做更有利于全文检索。
2011-05-21
--------------
* 删除 __PARSE_XATTR__ 宏中企图修改 xattr 的内容的作法, 当 xattr 为常量字符串时会出错
* 版本号升为 1.1.7
2011-05-16
--------------
* 增加一些 scws_test 的案例,调整 config.h 的包含方式移入 .c 文件而非 .h 文件.
2011-05-07
--------------
* 修正 scws_has_word() 的一处内存汇露,(感谢lauxinz)
2011-04-21
--------------
* 修改调试模式的编译选项,去除-O2避免源码和代码无法对应。 (感谢lauxinz)
2011-04-19
--------------
* 修改带小数点数字的识别规则,避免将IP地址切分成2个浮点数;
* 修改 - 的切分规则, 当减号出现在字母之间时视为连字符不切开(当开启复合二分时能再细分);
* 修改 _ 作为密切的连字符, 出现在字母数字之间时均不切开(当开启复合二分时能再细分);
* 版本号升级为 1.1.6
2011-01-17
--------------
* 修改 scws.c 使得夹在中文中间的 1~2 英文字符词性能识别为 en 而不是 un
* 修改数字分词后能自动把最后的 % 合入词汇,而不是单留 %, 如 33% 会当作一个词而不是 33 + %
2010-12-31
--------------
* 版本号升为 1.1.5
* 修正 xdb.c 270 行 + rec.value.len 误写成 + len 引发的重大问题。
2010-12-30
--------------
* 版本号升为 1.1.4
* 修正 xdb.c 中存在的一处缓冲区溢出, 感谢论坛网友 hovea.
2010-10-25
--------------
* 修正 phpext/ 中 scws_get_result() 参数解析里多了一个z 的问题,感谢
* 网友(阿男)告知
2010-10-23
--------------
* 修正 scws.c 中某些字符在ignore symbol设置下无效的问题
2010-09-07
--------------
* removed bad word term from tool/dict/w.txt (民医院)
2010-07-10
--------------
* 版本升为 1.1.3, 把 cli/ 的词典程序改为 gen-scws-dict; 重写 phpext/ 中的部分
* zend API, 统一采用 zend_parse_parameters() [win32的DLL同步更新]
2010-05-23
--------------
* 修正切分 "完美的东西" 的错误,在 rules[.??].ini 中加入 a + u(1) = 5 即可
2010-05-09
--------------
* 修正一个小错误, 当词典不加载到内存时返回的 (word_st)->flag 带有的 MALLOCED 标志和 SCWS_ZFLAG_SYMBOL 冲突
* 导致后方面 SCWS_NO_RULE1() 判断时发生不一致的错误. 版本号升为: 1.1.2
2010-03-04
--------------
* 修正内存泄露的重大bug, 版本号升级为 1.1.1, 增加 for php5.3 的win32(dll,threadsafe,x86)
bug 位于 xdict.h 中的
#define SCWS_WORD_MALLOCED 0x100
只要将 0x100 改变 0x80 即可,因为 struct scws_word 中定义的 flag 为 unsigned char 即 8bit,
容不下 0x100 导致,所有的 ->flag |= SCWS_WORD_MALLOCED 失效,以至于在 scws.c
中无法正确的释放这些内存。
2010-01-29
--------------
* 完成下列部分, 版本: 1.1.0
* 修正 win32 编译环境(vc6) 将 scws-1.1.x/ 放到与 php-4.4.9 或 php-5.2.12 源码目录同级目录中编译
2010-01-28
--------------
* 这里暂列一些 TODO for scws 1.1.0
+1) 开启用户动态词汇添加与修改功能, 指定 txt 文件, 增加词性'!'表示删除该词, '*'表示非法词汇
临时文件在 scws 层读入并处理,转换成 .xdb 文件暂存于 system_Temp/ 目录中
增加 scws_add_dict() 允许多次调用于 set_dict后, set_dict则为清除之前的所有词典.
add_dict, set_dict 返回值改为 int (0:成功,-1失败), add_dict越后面的越优先用
-2) 调整 rules 算法,允许组合词做 multi 切分(比如: 三百五十六 也可以细分)<未实现>
-3) 增加允许半角/全角数词和量词的合成规则 (24吨) <未实现>
+4) 增加 api: scws_has_word(char *attr); scws_get_words(char *attr); attr参数同get_top_words
+5) 这些改动完成后 scws 版本号升级为 1.1.0
+6) 调整 gen_dict.c 允许定义词典时和txt字典格式兼容
2009-07-31
--------------
* 修正一个隐藏的小BUG,当紧贴在中文字符后的1~2个字母字符返回时长度多1
* 增加phpext对 php5.3 的支持, 版本号升级为 1.0.4
2009-05-26
--------------
* 整合yanbin提供的win32编译移值及工程文件放入 phpext 发布包, 方便同步最新的 win32 版本
* 同时将版本号升级为 1.0.3
2009-05-23
--------------
* 加入支持数字字母混合长词自动按字母数字再拆分并保护单字字符,
* 为数码产品型号做准备! (需开启 scws_multi_duality)
2009-05-14
--------------
* 加入结合语义词性的分词功能(超简单的,很粗),初步解决已发现的分词bug
* 修正和完善 词典更新工具,方便加入新词条。
* 版本号升为 1.0.2,
2008-12-20
--------------
* 移植纯 php 实现的 pscws4, 找回并修订 pscws23 位于 tools/php4
将 dict_cht_gbk.txt 改名为 dict_cht_utf8.txt
* 修正 libscws/scws.c 中的 2处小错误(无重要影响)
* 版本号升为 1.0.1
[2008-3-8]
--------------
* scws-1.0.0.tar.gz 发布