LatentSync 使用Whisper将梅尔谱图转换为音频嵌入,然后通过交叉注意力层将其集成到 U-Net 中。参考帧和掩码帧与带噪声的潜在向量按通道连接,作为 U-Net 的输入。在训练过程中,我们使用一步法从预测噪声中获取估计的干净潜在向量,然后对其进行解码以获得估计的干净帧。TREPA、LPIPSSyncNet损失函数被添加到像素空间中。

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注