修复由于抄本问题导致的口语数据删除错误过高的问题 #54
snsun
started this conversation in
Show and tell
Replies: 2 comments
-
感谢校长的实验结果!!和我们之前blank penalty的实验结论(删除问题的原因是训练数据本身存在很多删除错误)形成了double-check,训练数据的质量确实非常非常非常重要 |
Beta Was this translation helpful? Give feedback.
0 replies
-
update:Wenetspeech数据上conformer、whisper均已验证抄本修复的效果,结果参考: |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
由于抄本是有OCR生成,大量的口语化的词语、重复词、不流利等词语如果不影响理解,内嵌字幕中都会删掉,采用这样的标签训练出来的模型,在口语化场景下,会存在明显的删除错误,比如test_meeting测试数据,或者SpeechIO上的短视频测试数据。
我们对抄本进行了一些修复,主要是使用funasr的paraformer模型对训练数据进行了解码,然后和原始的抄本做对比,原始抄本中存在删除且发生删除错误的上下文和funasr模型的识别结果一致,则将删除错误进行补充,比如
原始抄本: 这个**我不知道
funasr抄本:这个呃我不知道
**表示删除。删除发生的左右上下文(“这个”和“我不”)在原始抄本和funasr的抄本都一致,则将“呃”填充到删除处。
经过修复,我们使用wenetspeech+一些开源数据训练的模型,在test_meeting和speechio上的测试数据上都有明显的删除错误的下降,test_meeting的CER为例:
原始wenetspeech文本训练的模型:Overall -> 14.27 % N=220326 C=191718 S=15503 D=13105 I=2828
修复wenetspeech文本训练的模型:Overall -> 11.14 % N=220326 C=197299 S=16315 D=6712 I=1523
(上述结果采用的训练数据不完全一致,修复后的过滤掉了300W条抄本和funasr paraformer识别不一致的数据,数据少了,但是效果更好了)
删除错误明显减少。另外,训练过程中,我们还对数据进行了筛选,只采用了funasr paraformer和修复后的文本完全一致的数据作为训练数据,大概采用了1100W条数据。有兴趣的朋友可以采用下面更新的文本进行训练,和原始的抄本训练的模型进行对比。
链接: https://pan.baidu.com/s/19HiH6gaLYGNgDKTlT_sLOQ 提取码: text 复制这段内容后打开百度网盘手机App,操作更方便哦
Beta Was this translation helpful? Give feedback.
All reactions