LatentSync - 开源项目导航网开源项目导航网

数字人

LatentSync

链接直达手机查看

LatentSync 使用Whisper将梅尔谱图转换为音频嵌入，然后通过交叉注意力层将其集成到 U-Net 中。参考帧和掩码帧与带噪声的潜在向量按通道连接，作为 U-Net 的输入。在训练过程中，我们使用一步法从预测噪声中获取估计的干净潜在向量，然后对其进行解码以获得估计的干净帧。TREPA、LPIPS和SyncNet损失函数被添加到像素空间中。

相关导航

发表回复取消回复

相关导航

发表回复 取消回复

发表回复取消回复