Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[FEATURE] Websocket demo 实地测试中暴露出的问题 #18

Open
ISJDOG opened this issue Oct 25, 2024 · 5 comments
Open

[FEATURE] Websocket demo 实地测试中暴露出的问题 #18

ISJDOG opened this issue Oct 25, 2024 · 5 comments

Comments

@ISJDOG
Copy link
Contributor

ISJDOG commented Oct 25, 2024

#17

在会议场景中启动服务并记录了一个小时,总体内存、显存用量和 CPU 、 GPU 占用都维持在较为稳定的状态,这非常好。

不过,在测试中也暴露出一些问题:

  • vad 截断异常

使用正常大小的声音说 vad测试 或者 ok ,有很大可能会得到 bad测试k ,同时在测试中大量出现结尾的一两个字识别不到,表明 vad 截断还需改进。

  • 多音字转录效果较差

会议场景,特别是讨论中,一般语速较快,会导致识别返回较为混乱的结果;这也可能是因为我使用的是笔记本自带的麦克风收音,使用专业的会议麦克风,或加入人声增强功能,也许能改善识别结果。

@pengzhendong
Copy link
Owner

https://github.com/pengzhendong/pysilero/blob/ae49ae0b9076f205c35757796ae6e01f135e9a89/pysilero/pysilero.py#L38-L39

vad 默认检测到 min_silence_duration_ms=300ms 静音就认为是尾端点,并且只会将这 300ms 中的 speech_pad_ms=100ms 送给 asr。你可以先将 speech_pad_ms 调成 300 看看,不行的话再调大 min_silence_duration_ms

@SNTube
Copy link

SNTube commented Nov 11, 2024

识别阈值降低到0.3、0.4,以及最小静音持续时间与语音前后填充时间一致时效果不佳,试试下面数值
threshold=0.3, min_silence_duration_ms=400, speech_pad_ms=300
或是
threshold=0.3, min_silence_duration_ms=300, speech_pad_ms=400
vad测试 这个很大可能会得到 vd测试ok 基本能稳定返回 ok

@WangFeiji0928
Copy link

https://github.com/pengzhendong/pysilero/blob/ae49ae0b9076f205c35757796ae6e01f135e9a89/pysilero/pysilero.py#L38-L39

vad 默认检测到 min_silence_duration_ms=300ms 静音就认为是尾端点,并且只会将这 300ms 中的 speech_pad_ms=100ms 送给 asr。你可以先将 speech_pad_ms 调成 300 看看,不行的话再调大 min_silence_duration_ms

佬,有个好奇的事儿,为啥不用funasr的那个fsmn-vad呀?是因为流式不好改吗?我印象里他那个好像只能流式处理没办法流式返回

@pengzhendong
Copy link
Owner

@WangFeiji0928 你有测试的指标吗?我基于 silero-vad 改的比较方便取采样点,如果 fsmn-vad 效果好,有空也可以支持一下

@WangFeiji0928
Copy link

@WangFeiji0928 你有测试的指标吗?我基于 silero-vad 改的比较方便取采样点,如果 fsmn-vad 效果好,有空也可以支持一下

我没测,我也是为了方便取采样点直接用了webrtcvad,哈哈哈

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants