新需求：怎样使用全篇开口说话的视频来训练数字人？ #268

ThornbirdZhang · 2024-09-26T15:01:15Z

现在拿到的是人物连续演讲的视频，现有逻辑在推理的时候会重新匹配口型，没有问题。但是在没有说话时候，嘴巴闭合无法避免。
采用自定义视频很难衔接的圆滑。各位大佬有办法吗？

zzbcola · 2024-10-09T08:47:21Z

我也遇到了这个需求，有较好的解决方法吗？

ThornbirdZhang · 2024-10-11T04:08:20Z

目前还没有看到，应该需要训练。

chenkai89 · 2024-10-17T07:26:25Z

可以用静音进行推理，就会得到闭嘴的

ThornbirdZhang · 2024-10-19T10:31:51Z

使用静音数据（我在ttsreal中传入全0数据15秒），输出的人像此时会有不到1秒的卡顿，但还是开口的。好像没有达到输出闭嘴图片的效果。还请 @chenkai89 指导一下

chenkai89 · 2024-11-01T09:08:03Z

通过静音音频推理得到闭嘴的视频，再用闭嘴的视频生成数字人头像信息，再使用这个数据进行实时推理

ThornbirdZhang · 2024-11-11T03:15:20Z

感谢chenkai89的持续回答。第一步采用静音音频推理得到闭嘴的视频，这一步没有成功。出来的视频还是开口讲话的。你是怎么具体操作来获得闭嘴视频的？

chenkai89 · 2024-11-11T03:26:18Z

我是用了wav2lip256模型进行推理的，首先确定你的素材多长，假设你的素材11秒，你就使用ffmpeg 生成11秒的静音音频，通过静音音频和素材进行推理，wav2lip256自带了推理功能，当然我认为其他版本的wav2lip都是存在推理功能的，这样就得到闭嘴的视频，再用这个闭嘴的视频构建数字人。当然效果肯定不能和源视频相比的。如果精确一点，那就把视频分成多段，只推理讲话那部分，再把视频合并，这样效果会更好些

ThornbirdZhang · 2024-11-13T08:20:11Z

感谢 @chenkai89 。我原先采用muse，用静音没有变化。现在采用wav2lip可以有效果。但不是很好。生成的闭嘴视频很模糊啊，估计还需要参数的调优。的确，需要好的效果，还是拍摄闭口视频为上。
生成的视频。

ThornbirdZhang mentioned this issue Nov 13, 2024

拿到的原始视频本身是在不断说话的，如何能生成闭嘴的视频？ TMElyralab/MuseTalk#202

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

新需求：怎样使用全篇开口说话的视频来训练数字人？ #268

新需求：怎样使用全篇开口说话的视频来训练数字人？ #268

ThornbirdZhang commented Sep 26, 2024

zzbcola commented Oct 9, 2024

ThornbirdZhang commented Oct 11, 2024

chenkai89 commented Oct 17, 2024

ThornbirdZhang commented Oct 19, 2024

chenkai89 commented Nov 1, 2024

ThornbirdZhang commented Nov 11, 2024

chenkai89 commented Nov 11, 2024

ThornbirdZhang commented Nov 13, 2024

新需求：怎样使用全篇开口说话的视频来训练数字人？ #268

新需求：怎样使用全篇开口说话的视频来训练数字人？ #268

Comments

ThornbirdZhang commented Sep 26, 2024

zzbcola commented Oct 9, 2024

ThornbirdZhang commented Oct 11, 2024

chenkai89 commented Oct 17, 2024

ThornbirdZhang commented Oct 19, 2024

chenkai89 commented Nov 1, 2024

ThornbirdZhang commented Nov 11, 2024

chenkai89 commented Nov 11, 2024

ThornbirdZhang commented Nov 13, 2024