定制视频生成旨在在灵活的用户定义条件下生成具有特定主题的视频,但现有方法往往难以实现身份一致性和有限的输入模式。

本文中,我们提出了HunyuanCustom,这是一个多模态定制视频生成框架,强调主题一致性,同时支持图像、音频、视频和文本条件。

基于HunyuanVideo,我们的模型首先通过引入基于LLaVA的文本图像融合模块来增强多模态理解,以及利用时间连接来增强跨帧身份特征的图像ID增强模块,从而解决了图像文本条件生成任务。为了实现音频和视频条件生成,我们进一步提出了特定于模态的条件注入机制:一个通过空间交叉注意力实现分层对齐的AudioNet模块,以及一个通过基于patchify的特征对齐网络集成潜在压缩条件视频的视频驱动注入模块。

在单主题和多主题场景上的广泛实验表明,HunyuanCustom在ID一致性、真实性和文本视频对齐方面明显优于最先进的开源和闭源方法。此外,我们验证了其在下游任务中的鲁棒性,包括音频和视频驱动的定制视频生成。我们的研究结果强调了多模态条件反射和身份保持策略在推进可控视频生成方面的有效性。

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注