Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大 #132

Open
aihu8338 opened this issue Jun 27, 2024 · 7 comments

Comments

@aihu8338
Copy link

使用ER-NeRF+hubert模式实时推理,出来的画面感觉嘴形与声音对不上。
但是直接使用ER-NeRF推理出来的效果就挺好的。
请问有办法解决吗?

ER-NeRF推理结果:

result_ernerf.mp4

metahuman-stream推理结果:

result_metahus.mp4

推理音频:tts_qingming.wav.zip

@lipku
Copy link
Owner

lipku commented Jun 30, 2024

打印的fps多少

@aihu8338
Copy link
Author

aihu8338 commented Jul 1, 2024

@lipku
------actual avg infer fps:25.8044
------actual avg final fps:24.9966

@aihu8338
Copy link
Author

aihu8338 commented Jul 4, 2024

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。
这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@xiao-keeplearning
Copy link

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

你好,问下你音频分段是多少时长一个切片么

@vipxiaoma
Copy link

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@aihu8338 佬,能分享一下音视频不同步解决代码吗?

@aihu8338
Copy link
Author

aihu8338 commented Aug 6, 2024

@vipxiaoma 没有实现,只是猜测可能可以解决。

@Embracex1998
Copy link

效果真不错 牙齿完美

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants