Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于给synonyms更换自定义的词向量文件时遇到的问题 #128

Open
1 task
SheriffRabbit opened this issue Feb 10, 2022 · 4 comments
Open
1 task
Assignees

Comments

@SheriffRabbit
Copy link

描述

这里是一份腾讯开源的词向量
我打算将这个词向量替换到我们的同义算法中去
5000-small.txt
这个词向量文件是mini版本的腾讯词向量 用于验证是否可以正确导入到我们的库中使用

image
接下来使用gesmin读取词向量文件(txt)
image
然后将词向量文件保存成.vector
image
然后使用系统命令压缩成.gz

我直接用这个新文件替换到了项目目录中的词向量位置(因为文件同名 就直接替换过去了)
然后运行我们库的例子 发现问题
image
然后不管怎么检索各种词都是([ ],[ ])

功能

操作系统

  • macOS or Mac OSX

代码版本

关于春松客服

  • 春松客服:做好开源客服系统

https://dwz.chatopera.com/7VLF0B

  • 《春松客服大讲堂》:面向开发者的免费视频教程来了

https://dwz.chatopera.com/19K4R

Open Source for the World by Chatopera

chatoper banner

@littleone01
Copy link

littleone01 commented Feb 10, 2022 via email

@SheriffRabbit
Copy link
Author

然后我尝试打开了按照上述步骤生成的腾讯词向量文件以及 解压之后的我们库自带的词向量文件 如下图image

@SheriffRabbit
Copy link
Author

image
通过shang上面的发现 我将生成词向量的方式改成了 .save方式 获得了和自带的词向量一样的格式
但是仍不能正确加载

@hailiang-wang
Copy link
Member

将文件调整为二进制格式,目前仅支持 word2vec 二进制格式。
网络上有响应的工具,将 word2vec 的两种格式互转。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants