FLOAT 真的太好用了,唇形同步质量高,生成速度还很快,6秒音频我只要6秒就生成好了
FLOAT 是一种基于流匹配的音频驱动的有声人像视频生成方法,可以增强语音驱动的情感运动。
音频驱动的说话肖像旨在使用单一来源的肖像图像和驱动音频合成说话的肖像视频。FLOAT 建立在运动潜伏自动编码器之上,该编码器将给定的肖像图像编码为身份-运动潜伏表示。
我们通过流匹配(具有最佳传输轨迹)生成音频调节的说话肖像运动潜伏。为了增强生成的说话动作的自然性,我们合并了语音驱动的情绪标签 (),😀提供了一种自然的情绪感知说话肖像动作生成方法。
视觉质量光盘的权重已在自述文件中更新!以高精度将唇语视频同步到任何目标语音💯.试试我们的互动演示。✨适[…]