Skip to content

中文语料的盲分词词频统计工具:10亿字仅需1分钟!

License

Notifications You must be signed in to change notification settings

GarthTB/word-freq-counter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

中文语料的盲分词词频统计工具

在我的个人电脑上,约10亿字的中文互联网语料,统计2字词,不加标点符号,大约1分钟即可统计完毕。

语料文件须为UTF-8编码。默认中文范围为4e00-9fff(16进制)。

统计原理:

每次进行两轮统计。假设要统计n字词:

  • 第一轮:统计整个语料中,所有相邻的n个汉字组合出现的次数。
  • 第二轮:相邻的(2n-1)个汉字组合构建为一个窗口,每个窗口中有n个词,滑动步长为n。根据第一轮统计的结果,挑出每个窗口中词频最高的词(最可能是词)。

更新日志

v0.2.0 - 20250128

  • 优化:提速并减小体积。

v0.1.0 - 20250128

  • 发布!