刚刚,Stable Diffusion 原班人马官宣创业新公司

3 月宣布从 Stability AI 出走的 Robin Rombach,就是 Stable Diffusion 的两个主要作者之一,和十来个原公司小伙伴,正式宣布了组团创业的消息。

新公司名叫 Black Forest Lab,黑森林实验室。一亮相就 kuku 发了一个系列、共 3 款图片生成模型,其中有 2 个开源。

而且支持中文输入

效果怎么样?看过的网友称很狂野(wild)!

输入提示词,一次测试出了画面效果和人脸数据等安全措施:

一名十多岁戴着滑雪面罩的女孩在谷仓里做折纸手工。图片底部有指定的黄色文字。背景中有个相框,里面是 Obama 的照片。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

单是看了这组图文对照,就有网友感慨,这是他看过最棒的图像生成效果。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

要说这家公司的特色,就是主打一个不遮遮掩掩。

今天官宣成立,今天发布系列模型,还宣布了融资进度 ——

已经完成 3200 万美元(当前约 2.32 亿元人民币)融资,由 a16z 领投,Oculus VR 联创 Brendan Iribe、YC 前合伙人 Garry Tan、NVIDIA Research 领导计算机图形研究小组的 Timo Aila、苹果杰出科学家(英特尔智能系统前首席科学家)Vladlen Koltun 等人投资。

可以说,黑森林既得到了资本市场的押注,也得到了业界大佬们的青睐。

AI 大牛卡帕西也在线发来贺电,还顺道称赞了一下黑森林的新模型:

歪瑞古德!开源的 FLUX.1 image gen 模型看起来非常强大。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

而且注意了,开源协议是宽松的 Apache2.0。

黑森林图像生成模型首秀

卡帕西都觉得 exciting 了,让咱来视觉感受下黑森林的模型效果。

这里,量子位挑选了五种类型的生成效果展示,图片均由官方提供,未标明具体使用了旗下哪款模型。

第一关,文字生成。

提示词:旧教室黑板的照片。黑板上用粉笔写着“let’s make some really pretty stuff together”,词后有一个红色的粉笔心。阳光从窗户照进来。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

第二关,非真实场景 + 文字生成。

提示词:水下场景中,两只猫头鹰坐在一张精美的餐桌旁,餐桌中央点燃了蜡烛,两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服,右边的猫头鹰穿着漂亮的裙子。背景中有一艘潜艇驶过,其侧面画有“What a Hoot”字样。桌子下面的图像底部有小水母在游动,电影般美丽的数字艺术品。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

第三关,现实世界真实场景。

提示词:弗莱堡一条美丽街道的照片,一辆有轨电车经过,人们有的散步有的骑自行车。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

第四关,真实人物和动漫人物生成。

提示词:三位女士在市中心街道上拍摄的照片,她们把手伸向镜头。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

提示词:美丽的动漫艺术品,一个可爱的猫娘,看起来很沮丧,手里拿着一张纸,上面画着微笑,她快要哭了。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

第五关,动物形象生成。

提示词:森林里的一只山猫,由专业摄影在强光下拍摄。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

提示词:近距离渲染一个神话生物,由详细的螺旋分形和卷须组成,详细的递归皮肤纹理

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

FLUX.1 系列模型

此次,黑森林共发了 FLUX.1 系列的 3 个模型:pro、dev、schnell。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

FLUX.1 [pro]:系列最强音。

FLUX.1 系列的精华,提供最优性能的图像生成,具有一流的指令遵循、视觉质量、图像细节和输出多样性。

黑森林团队正缓步提升 API 中 FLUX.1 [pro] 的推理计算能力。

此版本可以通过 Replicate 和 fal.ai 访问;提供专用和定制的企业解决方案。

FLUX.1 [dev]:系列中杯。

一个允许非商业途径使用的模型,开放权重、经过蒸馏。

[dev] 直接从 [pro] 中蒸馏而来,具有相似的质量和迅速的遵守能力,同时比相同尺寸的标准模型更高效。

可在抱抱脸上试玩,或直接在 Replicate 或 fal.ai 上试用。

FLUX.1 [schnell]:速度小旋风。

系列最快模型,为本地开发和个人开发者量身制作。

FLUX.1 [schnell] 在 Apache2.0 许可证下公开可用,模型权重可以前往抱抱脸查询,推理代码可以在 GitHub 上找到。

已经获得了 ComfyUI 的支持,可以直接使用;也可以通过 Replicate 或 fal.ai 使用。

来个直观感受!

这里放三张照片,是以上大杯、中杯、小杯在不同提示词下,围绕“蛋糕”这个主题的生成效果。

从左至右,使用模型依次为大、中、小杯

量子位多次测试后发现,输入简单提示词的话,用 pro 版本生成一张图片的用时在 15s-25s 之间(成果图下方会显示生成用时)。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

黑森林称,所有 FLUX.1 模型都基于多模态和并行扩散 Transformer 块的混合架构,并扩展到 12B 参数

3 款模型中,FLUX.1 [pro] 和 [dev] 在视觉质量、提示响应度、尺寸 / 长宽高比列灵活性、排版和输出多样性这些方面,超过了 Midjourney v6.0、DALL・E 3 (HD) 和 Stable Diffusion 3-Ultra。

而 FLUX.1 [schnell] ,被团队称为“迄今为止最先进的少步骤模型(few-step model)”。

它不仅在同类竞争对手中脱颖而出,还超越了更强大的非压缩模型,如 Midjourney v6.0 和 DALL・E 3 (HD)。

整个 FLUX.1 系列都经过了专门的微调,以求保留预训练阶段的全部输出多样性。

与已有的技术相比,FLUX.1 还有以下优势:

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

有人免不了要问了,你们是 Stability AI 的 OG 元老,是核心成员。

So,你们这新模型,跟人家旗下的 Stable Diffusion 有啥区别?

创始团队成员在 Reddit 上进行了回应:

即使是我们的最弱型号 schnell,生成质量也更好,生成速度也更快。

主打一个我成立新公司超越我自己

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

SD 主要作者组团打造

介绍完模型相关资料,是时候正式来认识一下这家新公司了。

黑森林实验室,今天刚刚宣布成立。

公司官网上,赫然写着一句口号:A new era of creation。

公司使命推进最先进、高质量的图像和视频生成深度学习模型,并将其提供给最广泛的受众。

华点出现了!他们的下一步野心很明显,就是还要进军视频生成领域。

还放话,得是“SOTA”。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

核心成员 Robin Rombach,Stability AI 前研究科学家。

在 Stability AI 工作期间,他是 Stable Diffusion 模型的主要开发者之一,也参与研究了 SDXL、SVD 等项目。

今年 3 月,Robin 从 Stability AI 跑路。

外界评价他的离开让原本就乱成一锅粥的这家独角兽伤筋动骨 —— 毕竟他是 SD 的两位主力之一。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

往前回顾,Robin 在海德堡大学拿下物理学的本科和硕士学位。

2020 年,他在海德堡计算机视觉小组在 Björn Ommer 的指导下开始攻读计算机科学博士学位,并于 2021 年随研究小组移至慕尼黑大学。

研究重点关于生成深度学习模型,特别是文本到图像系统。

谷歌学术被引数接近 1.5 万。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

此外,官网公开的成员中,Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion English 都是可公开查询到的 Stability AI 原成员

(Andi Holmes 和 Jonas Müller 两人暂未查询到准确资料)

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

可以说,黑森林就是 SD 的原班核心成员们出走再启航了。

难怪 Axel Sauer 转发了官推,大声呐喊:

我们还活着!

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

One More Thing

好巧不巧,同一天,Stability AI 也有新动作:

推出新的 AI 模型 Stable Fast 3D,官方称它可以在半秒内生成 3D 图像

此前的模型需要数分钟才能生成类似效果的 3D 图像,新模型完成相同任务的速度是现有的 1200 倍。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

那 Stability AI 在 3 月跑路的 CEO,Emad Mostaque,他在干嘛呢

六月份,他官宣了自己的去向,新公司 Schelling AI,“将构建和支持由 AI 资金支持的开源代码、模型和数据集”。

重点精力放在创新研究和精心构建具有文化意识、科学、教育和创意的 AI。

三天前,Schelling AI 发布了系列文章第一篇,《How To Think About AI》。

文章有点长,感兴趣的朋友们可以搜索自行查看,这里就提一下核心思想 ——

AI 发展很快,提倡开源开放,加速创新协作。

Stable Diffusion 原班人马新公司官宣!新模型一夜刷新 AI 绘画格局,已获 3200 万美元融资-编程之家

以及,要不说大家都是体面人呢!

黑森林实验室宣布成立的推文,人家前 CEO 还是友情转发了的(此处放一个狗头)。

参考链接:

  • [1]https://blackforestlabs.ai

  • [2]https://news.ycombinator.com/item?id=41130620

  • [3]https://x.com/EMostaque

  • [4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/

  • [5]https://x.com/SchellingAI/status/1818600200232927721

本文来自微信公众号:量子位(ID:QbitAI),作者:衡宇