不用Trie，减少内存加快速度；优化代码细节 #187

gumblex · 2014-10-18T14:39:29Z

对于get_DAG()函数来说，用Trie数据结构，特别是在Python环境，内存使用量过大。经实验，可构造一个前缀集合解决问题。

该集合储存词语及其前缀，如set(['数', '数据', '数据结', '数据结构'])。在句子中按字正向查找词语，在前缀列表中就继续查找，直到不在前缀列表中或超出句子范围。大约比原词库增加40%词条。

该版本通过各项测试，与原版本分词结果相同。测试：一本5.7M的小说，用默认字典，64位Ubuntu，Python 2.7.6。
Trie：第一次加载2.8秒，缓存加载1.1秒；内存277.4MB，平均速率724kB/s
前缀字典：第一次加载2.1秒，缓存加载0.4秒；内存99.0MB，平均速率781kB/s

此方法解决纯Python中Trie空间效率低下的问题。
同时改善了一些代码的细节，遵循PEP8的格式，优化了几个逻辑判断。

加入了__main__.py，可直接使用python -m jieba进行分词。

usage: python -m jieba [options] filename

Jieba command line interface.

positional arguments:
  filename              input file

optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit
  -d [DELIM], --delimiter [DELIM]
                        use DELIM instead of ' / ' for word delimiter; use a
                        space if it is without DELIM
  -a, --cut-all         full pattern cutting
  -n, --no-hmm          don't use the Hidden Markov Model
  -q, --quiet           don't print loading messages to stderr

If no filename specified, use STDIN instead.

若采纳，请适当修改版本号、修订历史、说明等。Python 3的适配稍后发布。

…few small improvements

fxsjy · 2014-10-19T11:43:20Z

@gumblex ,赞！

不用Trie，减少内存加快速度；优化代码细节

不用Trie，同#187

fxsjy · 2014-10-19T13:35:44Z

@gumblex ，实测了一把，的确内存占用少很多，且速度有提升。

kslr · 2014-10-20T15:24:04Z

内存减少的真是太棒了

kevingo · 2014-10-21T04:29:45Z

It's a good modified.

xwzhong · 2016-05-28T06:57:44Z

nice

pengcao · 2018-01-09T01:05:39Z

great

yzho0907 · 2018-08-09T10:18:06Z

After python3.6 optimize the basic dict and python trie tree is actually based on dict, does trie tree in python3.6+ perform better or at least better than python2.+??

chuanfanyoudong · 2018-10-31T00:11:38Z

之前内存消耗较大是因为tril树的每个节点也是字典导致的字典嵌套字典吗

sugarac · 2019-03-11T18:04:55Z

@gumblex 你好，想请教下，为什么要把前缀也存起来呢，不在字典的词语前缀，词频永远是0吧？

shaheming · 2019-04-10T05:53:36Z

@gumblex 你好，想请教下，为什么要把前缀也存起来呢，不在字典的词语前缀，词频永远是0吧？
可以参考 https://www.cnblogs.com/zhbzz2007/p/6084196.html
是这样的如果将例如对「去北京大学玩」分词。
分词是构建一个 DAG 图。会循环整个句子中的每一个字，并且从当前的字开始往下遍历，看是否可以构成新的词。例如从「北」开始，它自己是在字典中的 OK，「北京」OK。「北京大」，如果此时没有将「北京大」放入字典中，那么就不会遍历到「北京大学」整个词了。

这里是用了 set 来代替前坠树。

gumblex added 2 commits October 18, 2014 22:23

use prefix dict instead of trie, add a command line interface, and a …

51df778

…few small improvements

fix version; fix spaces at end of line

bb1e600

gumblex mentioned this pull request Oct 19, 2014

不用Trie，同#187 #188

Merged

fxsjy added a commit that referenced this pull request Oct 19, 2014

Merge pull request #187 from gumblex/master

4a93f21

不用Trie，减少内存加快速度；优化代码细节

fxsjy merged commit 4a93f21 into fxsjy:master Oct 19, 2014

fxsjy added a commit that referenced this pull request Oct 19, 2014

Merge pull request #188 from gumblex/jieba3k

56e8336

不用Trie，同#187

dfbblwd mentioned this pull request Dec 12, 2019

> @gumblex 你好，想请教下，为什么要把前缀也存起来呢，不在字典的词语前缀，词频永远是0吧？ #785

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

不用Trie，减少内存加快速度；优化代码细节 #187

不用Trie，减少内存加快速度；优化代码细节 #187

gumblex commented Oct 18, 2014

fxsjy commented Oct 19, 2014

fxsjy commented Oct 19, 2014

kslr commented Oct 20, 2014

kevingo commented Oct 21, 2014

xwzhong commented May 28, 2016

pengcao commented Jan 9, 2018

yzho0907 commented Aug 9, 2018

chuanfanyoudong commented Oct 31, 2018

sugarac commented Mar 11, 2019

shaheming commented Apr 10, 2019

不用Trie，减少内存加快速度；优化代码细节 #187

不用Trie，减少内存加快速度；优化代码细节 #187

Conversation

gumblex commented Oct 18, 2014

fxsjy commented Oct 19, 2014

fxsjy commented Oct 19, 2014

kslr commented Oct 20, 2014

kevingo commented Oct 21, 2014

xwzhong commented May 28, 2016

pengcao commented Jan 9, 2018

yzho0907 commented Aug 9, 2018

chuanfanyoudong commented Oct 31, 2018

sugarac commented Mar 11, 2019

shaheming commented Apr 10, 2019