CilinSimilarity

Word similarity computation based on Tongyici Cilin

这是一个基于哈工大同义词词林扩展版的单词相似度计算方法的python实现，参考了三篇paper，实现了三种相似度的计算方法。

三篇paper分别为：

2010 田久乐等，吉林大学学报（信息科学版），基于同义词词林的词语相似度计算方法
2013 吕立辉等，现代计算机（专业版），基于词林的词语相似度的度量
2016 朱新华等，中文信息学报，基于知网与词林的词语语义相似度计算

Usage

python3
直接clone到本地即可使用

示例如下

cs = CilinSimilarity()
w1 = '抄袭'
w2 = '克隆'
code1 = cs.get_code(w1)
print(w1, '的编码有：', code1)
code2 = cs.get_code(w2)
print(w2, '的编码有：', code2)
sim = cs.similarity(w1, w2)
print(w1, w2, '最终的相似度为', sim)

输出结果如下

抄袭 的编码有： ['Hb08B04=', 'Hn10C01=']
克隆 的编码有： ['Hd04A03=']
common_str:  H
k 2
n 14
Hb08B04= Hd04A03= 的相似度为： 0.585642777645155
common_str:  H
k 10
n 14
Hn10C01= Hd04A03= 的相似度为： 0.22524722217121346
抄袭 克隆 最终的相似度为 0.585642777645155

[2013]和[2016]两篇的计算方法，分别调用cs.sim2013(w1, w2)和cs.sim2016(w1, w2)即可。

如有错误，请指正，lls9107@qq.com

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

CilinSimilarity

Usage

Files

README.md

Latest commit

History

README.md

File metadata and controls

CilinSimilarity

Usage