Skip to content

停用词过滤

BigInventor edited this page Mar 17, 2018 · 6 revisions

停用词需求是一种及其常见的需求,好处很多很多,令人惊讶的是坏处比好处还多,所以一般情况下不要用这个破玩意.我觉得主要是古时候,计算能力有限,大家不想对于无畏的字符串,计算太多,放给处女座程序员,一般觉得,tmd有个家伙没用一直在耗费我的cpu,删了丫的,好吧,我真不是处女座黑.反正这个功能也得有,并且已经将这个功能移位了.调用如下.

  • 1.实例化一个过滤器
StopRecognition filter = new StopRecognition();

filter.insertStopNatures("uj"); //过滤词性
filter.insertStopNatures("ul");
filter.insertStopNatures("null");
filter.insertStopWords("我"); //过滤单词
filter.insertStopRegexes("小.*?"); //支持正则表达式
  • 调用过滤
Result modifResult = ToAnalysis.parse(str).recognition(filter); //过滤分词结果

就这么简单.小朋友咱们下期再见.