查询unicode编码长度为四字节的汉字时返回结果异常 #1541

siuze · 2023-05-24T14:43:36Z

问题描述
在查询unicode编码长度为四字节的生僻字如“𠚺“，均会返回大量与输入内容无关的结果：

输入小于四字节的汉字则无问题，如“䶶”，返回结果正常为空：

如何重现
在榕典内输入任一unicode四字节编码长度汉字，点击查询。
如：https://www.ydict.net/search/%F0%A0%9A%BA

预期表现
只返回包含“𠚺”字的条目。

其他信息
该bug已经存在了很久很久没修，我发现在mysql上建库查询也有类似的错误结果，下面的解决方法供参考：

问题复现：

解决办法：修改数据库的排序规则为utf8mb4_bin

问题解决：

之前用general_ci和unicode_ci规则都会有问题

siuze added the bug Something isn't working label May 24, 2023

siuze assigned ztl8702 May 24, 2023

Provide feedback