FLOAT 真的太好用了,唇形同步质量高,生成速度还很快,6秒音频我只要6秒就生成好了

 

FLOAT 是一种基于流匹配的音频驱动的有声人像视频生成方法,可以增强语音驱动的情感运动。

 

音频驱动的说话肖像旨在使用单一来源的肖像图像驱动音频合成说话的肖像视频。FLOAT 建立在运动潜伏自动编码器之上,该编码器将给定的肖像图像编码为身份-运动潜伏表示。

 

我们通过流匹配(具有最佳传输轨迹)生成音频调节的说话肖像运动潜伏。为了增强生成的说话动作的自然性,我们合并了语音驱动的情绪标签 (),😀提供了一种自然的情绪感知说话肖像动作生成方法。

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注