• 发布了AnyInsertion数据集,这是一个包含120K提示-图像对的大规模数据集,涵盖了广泛的插入任务,例如人物、物体和服装插入。
  • 提出了Insert Anything框架,这是一个统一框架,通过单一模型无缝处理多种插入任务(人物、物体和服装)。
  • 首个利用DiT(Diffusion Transformer)进行图像插入的研究,充分发挥了其在不同控制模式下的独特能力。
  • 开发了上下文编辑技术,采用双联画(diptych)和三联画(triptych)提示策略,将参考元素无缝整合到目标场景中,同时保持身份特征。

相关导航

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注