-
Notifications
You must be signed in to change notification settings - Fork 21
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[FEATURE] Websocket demo 实地测试中暴露出的问题 #18
Comments
vad 默认检测到 min_silence_duration_ms=300ms 静音就认为是尾端点,并且只会将这 300ms 中的 speech_pad_ms=100ms 送给 asr。你可以先将 speech_pad_ms 调成 300 看看,不行的话再调大 min_silence_duration_ms |
识别阈值降低到0.3、0.4,以及最小静音持续时间与语音前后填充时间一致时效果不佳,试试下面数值 |
佬,有个好奇的事儿,为啥不用funasr的那个fsmn-vad呀?是因为流式不好改吗?我印象里他那个好像只能流式处理没办法流式返回 |
@WangFeiji0928 你有测试的指标吗?我基于 silero-vad 改的比较方便取采样点,如果 fsmn-vad 效果好,有空也可以支持一下 |
我没测,我也是为了方便取采样点直接用了webrtcvad,哈哈哈 |
#17
在会议场景中启动服务并记录了一个小时,总体内存、显存用量和 CPU 、 GPU 占用都维持在较为稳定的状态,这非常好。
不过,在测试中也暴露出一些问题:
vad
截断异常使用正常大小的声音说
vad测试
或者ok
,有很大可能会得到bad测试
和k
,同时在测试中大量出现结尾的一两个字识别不到,表明vad
截断还需改进。会议场景,特别是讨论中,一般语速较快,会导致识别返回较为混乱的结果;这也可能是因为我使用的是笔记本自带的麦克风收音,使用专业的会议麦克风,或加入人声增强功能,也许能改善识别结果。
The text was updated successfully, but these errors were encountered: