layout | title | permalink | key | tags | lang | author | chart | aside | ||
---|---|---|---|---|---|---|---|---|---|---|
article |
SpeechIO TIOBE 评测榜 |
/timeline |
TIOBE_timeline |
TIOBE-Benchmark |
zh-Hans |
SpeechIO |
true |
|
最新更新日期:2020.08
- 2020年8月:
- 场景:增加
播客 创业内幕
- 测试:全厂商 × 全场景 滚动刷新测试
- 场景:增加
- 2020年7月:
- 场景:增加
播客 故事FM
- 重要修复:发现
直播带货 李佳琪薇娅
直播 王者荣耀
老罗语录
三个场景测试集标注错误,全面检查&修正;作废这三个测试集上个月(6月)的测试结果。 - 测试:全厂商 × 全场景 滚动刷新测试
- 场景:增加
- 2020年6月:
- 场景:增加
直播带货 李佳琪薇娅
直播 王者荣耀
老罗语录
- 厂商:增加
阿里+
,为阿里云新算法的试用版; 测试中取消谷歌
,因谷歌的中文识别性能没有参考性,且费用超过其余各家之和。 - 更名:原
搜狗知音平台
改名为搜狗AI开放平台
- 测试:全厂商 × 全场景 滚动刷新测试
- 场景:增加
- 2020年5月:
- 修复搜狗多句结果解析bug
- 场景:增加
天下足球-世界杯往事
罗振宇跨年演讲
李永乐老师在线讲堂
- 厂商:增加
创S
- 测试:全厂商 × 全场景 滚动刷新测试
- 2020年4月:
- 场景:增加
鲁豫有约大咖一日行
- 厂商:增加
微软 Azure 认知服务
搜狗知音平台
- 测试:全厂商 × 全场景 滚动刷新测试
- 场景:增加
- 2020年3月:
- 场景:增加
新闻联播
- 厂商:增加
阿里
百度
谷歌
讯飞
腾讯
创Y
- 场景:增加
-
过去十年,语音行业的技术水平和数据积累都取得长足的进步,但始终没有贯彻一致的测试数据,来定量的追踪这种时间变化趋势,甚至做出行业整体的提升曲线。虽然现阶段语音技术发展进入相对的平缓期,但 SpeechIO TIOBE 测试还是会尝试在未来逐步填补这一空白。Better late than never.
-
在很多的语音团队中,内部的测试集,最后实际上都变成了一个调参的开发集(一个观察,不一定对),相信各团队中负责核心识别率研发的同学都能理解这个观察。我们这样一个外部的大规模、多领域的中立测试集,多少也会对各团队的研发起到参考作用,希望我们的这部分工作能使整个行业受益。
-
我们正在构建的应该是语音行业有史以来最大的多领域中文测试集,大家接下来想看到什么样的场景和领域测试,可以后台私信参与进来,两个原则:公开渠道;公众熟知。我们会选取有普遍参考价值的领域进行实施。
-
原则上,我们会尽量密集的进行追踪测试。但出于资金和时间精力的投入,我们不保证滚动测试每月都更新。
字准确率 | 2020.03 | 2020.04 | 2020.05 | 2020.06 | 2020.07 |
---|---|---|---|---|---|
阿里 | 98.59 | 98.98 | 98.98 | 98.97 | 98.98 |
阿里+ | N/A | N/A | N/A | 98.63 | 98.84 |
百度 | 97.58 | 97.59 | 97.79 | 97.70 | 97.71 |
谷歌 | 95.32 | 95.32 | 95.30 | N/A | N/A |
讯飞 | 98.88 | 98.87 | 98.88 | 98.54 | 98.88 |
微软 | N/A | 98.57 | 98.57 | 98.61 | 98.61 |
创S | N/A | N/A | 99.15 | 99.15 | 99.18 |
搜狗 | N/A | 97.94 | 98.51 | 98.51 | 98.86 |
腾讯 | 97.8 | 97.77 | 97.81 | 98.68 | 99.12 |
依图 | 98.91 | 98.91 | 99.0 | 99.0 | 99.0 |
简评
- 除 Google 外,上述测试对象的错误率已经达到1%~2%水平,即100个字中只发生1到两个字的错误。举一个不完全准确,但直观例子来说明:语音识别中的核心模块,完成从声音到拼音序列的转化,之后的过程与拼音输入法无异。大家可以回想一下自己在使用拼音输入法过程中的错字率,来更直观的对比这里1%~2%的字错误率。可以说,该场景在现有的语音识别技术水平下,已经是一个已解决的问题。
- Google 的识别率明显低于国内厂商。毋庸置疑,Google 在语音技术上处于全球前列,引领技术进步路线。国内企业整体更好的原因,主要应在于中文领域的数据积累和资源打磨,相反,相信若测试切换到英文场景,会有类似反转。这种优势,应该会持续体现在我们下面的各个领域测试中,留待我们后续验证。该例子说明,除算法外,领域数据的积累和打磨,对最终系统的性能表现也至关重要。
字准确率 | 2020.04 | 2020.05 | 2020.06 | 2020.07 |
---|---|---|---|---|
阿里 | 92.96 | 92.96 | 92.97 | 93.02 |
阿里+ | N/A | N/A | 94.46 | 94.61 |
百度 | 91.15 | 91.15 | 91.14 | 91.15 |
谷歌 | 81.26 | 81.16 | N/A | N/A |
讯飞 | 93.77 | 93.77 | 93.53 | 93.64 |
微软 | 93.17 | 93.17 | 93.26 | 93.23 |
创S | N/A | 95.45 | 95.55 | 95.51 |
搜狗 | 92.83 | 92.86 | 93.03 | 93.76 |
腾讯 | 89.38 | 89.41 | 93.38 | 94.95 |
依图 | 95.44 | 96.31 | 96.31 | 96.31 |
简评
-
跟上期的新闻联播相比,可以发现各家的识别性能都发生了明显的下降,读者可以详细对比两篇领域测试中的[场景特点]部分,从中了解识别性能差异的来源。其中,自然对话、现实生活中的各种背景噪音,都是很重要的影响因素。
-
鲁豫有约大咖一日行节目,是专业的团队制作,仍属于高质量语音。现实生活中,会有很多信噪比糟糕得多的场景,现阶段语音识别的性能会更大幅度的下降。因此大家可以看到厂商们都在推出各种各样的硬件设备,配合新的语音技术去解决这类问题。
字准确率 | 2020.05 | 2020.06 | 2020.07 |
---|---|---|---|
阿里 | 96.62 | 96.62 | 96.65 |
阿里+ | N/A | 96.74 | 96.89 |
百度 | 92.46 | 92.46 | 92.47 |
谷歌 | 87.34 | N/A | N/A |
讯飞 | 97.38 | 96.80 | 97.35 |
微软 | 95.99 | 96.02 | 95.97 |
创S | 98.87 | 98.90 | 98.91 |
搜狗 | 93.85 | 93.30 | 95.38 |
腾讯 | 91.57 | 95.70 | 97.43 |
依图 | 98.83 | 98.83 | 98.83 |
简评
字准确率 | 2020.05 | 2020.06 | 2020.07 |
---|---|---|---|
阿里 | 96.76 | 96.76 | 96.61 |
阿里+ | N/A | 96.96 | 97.06 |
百度 | 95.11 | 95.12 | 95.11 |
谷歌 | 91.07 | N/A | N/A |
讯飞 | 96.70 | 94.77 | 96.53 |
微软 | 96.11 | 96.22 | 96.2 |
创S | 97.62 | 97.61 | 97.57 |
搜狗 | 96.35 | 96.43 | 96.77 |
腾讯 | 96.01 | 96.63 | 97.28 |
依图 | 98.03 | 98.04 | 98.03 |
简评
字准确率 | 2020.05 | 2020.06 | 2020.07 |
---|---|---|---|
阿里 | 94.83 | 94.83 | 94.85 |
阿里+ | N/A | 95.59 | 95.75 |
百度 | 90.33 | 90.33 | 90.32 |
谷歌 | 82.75 | N/A | N/A |
讯飞 | 94.52 | 94.44 | 94.49 |
微软 | 94.14 | 94.42 | 94.22 |
创S | 96.61 | 96.69 | 96.55 |
搜狗 | 93.93 | 93.90 | 95.14 |
腾讯 | 94.98 | 94.98 | 95.73 |
依图 | 97.07 | 97.08 | 97.07 |
简评
字准确率 | 2020.07 |
---|---|
阿里 | 86.15 |
阿里+ | 90.76 |
百度 | 85.18 |
讯飞 | 83.73 |
微软 | 83.57 |
创S | 89.2 |
搜狗 | 89.21 |
腾讯 | 91.35 |
依图 | 90.81 |
简评
字准确率 | 2020.07 |
---|---|
阿里 | 81.02 |
阿里+ | 86.49 |
百度 | 78.13 |
讯飞 | 82.8 |
微软 | 80.1 |
创S | 88.04 |
搜狗 | 84.69 |
腾讯 | 87.34 |
依图 | 88.19 |
简评
字准确率 | 2020.07 |
---|---|
阿里 | 79.62 |
阿里+ | 88.85 |
百度 | 73.85 |
讯飞 | 81.37 |
微软 | 84.48 |
创S | 90.23 |
搜狗 | 87.77 |
腾讯 | 91.61 |
依图 | 92.87 |
字准确率 | 2020.07 |
---|---|
阿里 | 93.14 |
阿里+ | 94.42 |
百度 | 91.45 |
讯飞 | 93.48 |
微软 | 92.6 |
创S | 95.09 |
搜狗 | 94.07 |
腾讯 | 94.64 |
依图 | 95.85 |
简评
字准确率 | 2020.08 |
---|---|
阿里 | 93.94 |
阿里+ | 94.72 |
百度 | 89.48 |
讯飞 | 93.36 |
微软 | 92.9 |
创S | 94.92 |
搜狗 | 94.69 |
腾讯 | 94.70 |
依图 | 95.49 |
简评