-
Notifications
You must be signed in to change notification settings - Fork 213
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
分享一个自己生成的特征文件 char_meta.txt #33
Comments
前一阵还看到一个小米的小爱语音纠错 -> 微信文章 |
多谢分享 是不是应该拼音在前 笔画在后 |
确实反了,已经上传了新的😂 |
多谢分享 |
感谢分享 |
1 similar comment
感谢分享 |
fine-tuned/ 这目录下的文件有吗 可以分享否 |
没有吧 这个最好自己再自己的数据上训练
…On Fri, Jun 4, 2021 at 11:39 PM lwsbox ***@***.***> wrote:
fine-tuned/ 这目录下的文件有吗 可以分享否
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#33 (comment)>, or
unsubscribe
<https://github.com/notifications/unsubscribe-auth/AAOPKZCQX52GO6ULVESF74LTRHBA7ANCNFSM4PGNU5QQ>
.
|
|
上传新的文件在哪呢 |
Hi, 这个特征文件你有自己测试过吗,我试了下,发现用这个文件输出的 |
我没用它这个文件,他这个IDS文件确实有问题 |
@hudielv 那你是怎么做的? |
嗯,好像又是对的,因为 @Lijiachen1018 生成的是树形的ids, 而我使用的是 levenshtein 的编辑距离, 我再测试下 |
为什么是树形的ids呢,难道不是和原论文一样的先序遍历序列嘛 |
这个ids文件是树结构,但是有一个问题,就是单纯以笔画顺序来做ids(@Lijiachen1018),例如 田、由,本来字形很近似,却得到较大距离=7,导致测试结果跟例子(距离=1)不同。FASPell应该是根据字形统一优化了ids。 |
ids规范就是树形的, 虽然是树形,也可以用来计算 levenshtein,也是有效的。FASPell应该是根据字形统一优化了ids。 |
这个fine-turned model试了下,效果不行,还没有直接用pretrained的好。 |
这个特征文件有问题啊,使用这个特征文件计算出来的“田”和“由”相似度: For character pair (由, 田): 使用作者提供的 char_meta.txt 部分数据计算得到: 是不是 stroke-level IDS 哪里出问题了啊? |
问题已解决,在计算编辑距离前可以先对这份特征文件的 stroke-level IDS 进行排序,排序后计算出来的字形相似度就正确了。 |
请详细说一下怎么操作可以吗?感谢! |
对 田: ⿵⿰丨𠃌⿱⿻一丨一 和 由:⿻⿴⿱⿰丨𠃌一一丨 的 ids 先进行排序,再计算编辑距离 |
非常感谢!我试试看。 |
您好,可以解释一下怎么排序吗,谢谢 |
char_meta.txt
约10MB大小,不能保证完全正确。
几行预览:
生成过程
Unihan_Readings.txt
获取汉字的各个语言发音kHanyuPinyin, kMandarin, kTGHZ2013, kXHC1983
kCantonese, kKorean, kJapaneseOn, kVietnamese
ids.txt
遍历拆解汉字笔画,The text was updated successfully, but these errors were encountered: