智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。

▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合

官方表示,OmniGen 具有以下特点:

  • 统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。

  • 简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块 (如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。

  • 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。

▲ 指代表达生成

附相关链接如下:

  • 论文:https://arxiv.org/pdf/2409.11340

  • 代码:https://github.com/VectorSpaceLab/OmniGen

  • 演示:https://huggingface.co/spaces/Shitao/OmniGen

Published by

风君子

独自遨游何稽首 揭天掀地慰生平