Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

这套配置似乎忽视了rime自带的增广字符集选项 #9

Open
Renkai opened this issue Jan 10, 2023 · 10 comments
Open

这套配置似乎忽视了rime自带的增广字符集选项 #9

Renkai opened this issue Jan 10, 2023 · 10 comments

Comments

@Renkai
Copy link

Renkai commented Jan 10, 2023

我看到rime的 default.yaml 里有

    - {accept: "Control+Shift+5", toggle: extended_charset, when: always}

尝试使用, rime(鼠须管) 会提示CJK baseset/CJK extended 转换.
但是我试了几个拼音, 包括en和da, 似乎不管切换到哪个, 出来的候选词数量是一模一样的.

@functoreality
Copy link
Owner

其实我之前就没怎么理解增广字符集这个设定,所以也没关注到这点。
在其他方案下是能看出区别的么?有没有一些例子什么的

@Renkai
Copy link
Author

Renkai commented Jan 10, 2023

暂时没有哈, 还没用过别的方案. 只是觉得候选词里的生僻字好像有些比较靠前, 在想办法处理, 看到了这处设置, 在想有没有可能有关系.

@functoreality
Copy link
Owner

暂时没有哈, 还没用过别的方案. 只是觉得候选词里的生僻字好像有些比较靠前, 在想办法处理, 看到了这处设置, 在想有没有可能有关系.

生僻字排列靠前这个问题,我怀疑是 Rime 对候选词的排序机制造成的,有时候是 有辅助码的字 和没有辅助码的字([[ 结尾)交替出现,不过也一直没搞清楚具体问题在哪。
目前也没有当作重点解决,毕竟使用时间长,积累了一些输入记录了之后,排在前面的也就都是常用字了。

@Renkai
Copy link
Author

Renkai commented Jan 15, 2023

看到明月拼音里有一个

filters:
    - "charset_filter@gbk"

应该就是读取 extended_charset 这项配置决定是否需要过滤罕见字的

@functoreality
Copy link
Owner

比较奇怪的是我这里的 luna_pinyin.schema.yaml 里没这东西,不排除是版本的问题。
不过我还是觉得主要问题应该是在排序而不是筛选。输入法候选里有罕见字其实不是什么大问题,但是这些字应该排在候选列表的末尾,要翻很多页才能看到的那种,而不是和常用字抢前排的位置。原则上 Rime 自带的字频应该是能够保证这点的,但不知为何这个方案的默认排序没有完全按照这个来。

@Renkai
Copy link
Author

Renkai commented Jan 16, 2023

我看八股文里大部分是词组而非单子, 会不会自带字频里的字收录得不够多?
https://github.com/rime/librime/blob/master/data/minimal/essay.txt

@Renkai
Copy link
Author

Renkai commented Jan 17, 2023

关于charset filter, 看了这个 issue 我大概明白了, 是一个早期功能, 后来因为性能原因被去掉了, 只是早期流散出去的文档没有被清除也没有说明适用的版本?
rime/home#91

@functoreality
Copy link
Owner

我看八股文里大部分是词组而非单子, 会不会自带字频里的字收录得不够多? https://github.com/rime/librime/blob/master/data/minimal/essay.txt

之前忘记拼音输入法里多音字不同读音的词频有区别了,单字的词频应该是在方案的字典文件里。我用的字典是从朙月拼音的转换来的,这部分字频设置的应该没有问题,只是不知道 Rime 怎么就处理成这样了。

@gaboolic
Copy link
Contributor

这个问题是rime低版本的问题,新版本应该就好了
我是在词库use_preset_vocabulary: false 彻底没用八股文

@gaboolic
Copy link
Contributor

image
我用新版的对的

而旧版本既不是字典序 也不是字频序, 皑在很前

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants