Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

寻找大神兄弟计划 #16

Open
yaoguangluo opened this issue Mar 24, 2019 · 8 comments
Open

寻找大神兄弟计划 #16

yaoguangluo opened this issue Mar 24, 2019 · 8 comments

Comments

@yaoguangluo
Copy link
Owner

德塔自然语言分词项目,每秒带中文分词1300-2700万字,今日起,如果有基于该分词思想能让精确分词速度最低值优化到1500万+,德塔开源如果采用,悬赏1万元人民币并标注为终身贡献者,享受该项目5%使用权益。有效期至2019年03月30日。
优化建议在下面留言即可。

@yaoguangluo
Copy link
Owner Author

1大神计划持续中,
2悬赏 计划已经 结束.
德塔现在公布1500万优化方案 : 目前正在 正在 做词性语料字典录入系统.将每次 数万的字典匹配 变成12个小表分化 每次几百 . 预期 目标为1700万+.

2019年3月31日

@yaoguangluo
Copy link
Owner Author

2019/03/31 23点02分 世界记录再次刷新, 每秒1400万+纯中文分词!

@yaoguangluo
Copy link
Owner Author

2019/04/02 01点31分 世界记录再次刷新, 每秒1500万+纯中文分词! (离散交集优化.)

@yaoguangluo
Copy link
Owner Author

2019年4月13日,德塔目前 分词速度 每秒2300万般将近, 如果 有大神基于该分词思想能让精准确分词速度最低值优化到2800万+,德塔开源如果采用,悬赏1万元人民币并标注为终身贡献者,享受该项目5%使用权益。有效期至2019年04月30日。
优化建议在下面留言即可。

@yaoguangluo
Copy link
Owner Author

2800万指的是纯中文分词速度.

@yaoguangluo
Copy link
Owner Author

1大神计划持续中,
2悬赏 计划已经 结束.

2019年5月1日

@yaoguangluo
Copy link
Owner Author

2019年5月3日 deta <纯中文分词函数> 被 <无标点,病句,歧义,绕口令混合分词函数> 取代, 目前 未优化算法第一版: 10.6.4版本 每秒混分 最低 1800万字. 预计有 400万的优化空间, 因为达不到30%的数量级提升, 德塔研究重心暂时不在这.

@yaoguangluo
Copy link
Owner Author

yaoguangluo commented May 26, 2019

2019-05-27 deta 分词进行词汇长度 小表拆分 增加分词速度, 最新开源版本已经 更新. 之后会更详细的优化.
da2d9b3

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant