真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

而大佬 LeCun 则意味深长地表示：该来的总是会来的。

毕竟一句话生成视频这事儿，之前就有不少业内人士觉得“快了快了”。只不过 Meta 这一手，确实有点神速：

比我想象中快了 9 个月。

甚至还有人表示：我已经有点适应不了 AI 的进化速度了……

文本图像生成模型超进化版

你可能会觉得 Make-A-Video 是个视频版的 DALL・E。

实际上，差不多就是这么回事儿

。

前面提到，Make-A-Video 是文本图像生成（T2I）模型的超进化，那是因为这个 AI 工作的第一步，其实还是依靠文本生成图像。

从数据的角度来说，就是 DALL・E 等静态图像生成模型的训练数据，是成对的文本-图像数据。

而 Make-A-Video 虽然最终生成的是视频，但并没有专门用成对的文本-视频数据训练，而是依然靠文本-图像对数据，来让 AI 学会根据文字复现画面。

视频数据当然也有涉及，但主要是使用单独的视频片段来教给 AI 真实世界的运动方式。

具体到模型架构上，Make-A-Video 主要由三部分组成：

文本图像生成模型 P

时空卷积层和注意力层

用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的：

首先，根据输入文本生成图像嵌入。

然后，解码器 D^t 生成 16 帧 64×64 的 RGB 图像。

插值网络 ↑ F 会对初步结果进行插值，以达到理想帧率。

接着，第一重超分网络会将画面的分辨率提高到 256×256。第二重超分网络则继续优化，将画质进一步提升至 768×768。

基于这样的原理，Make-A-Video 不仅能根据文字生成视频，还具备了以下几种能力。

将静态图像转成视频：

此外，Meta AI 的团队还使用了 Imagen 的 DrawBench，进行人为主观评估。

他们邀请测试者亲身体验 Make-A-Video，主观评估视频与文本之间的逻辑对应关系。

结果显示，Make-A-Video 在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是，Meta 发布新 AI 的同时，似乎也拉开了 T2V 模型竞速的序幕。

Stable Diffusion 的母公司 StabilityAI 就坐不住了，创始人兼 CEO Emad 放话道：

我们将发布一个比 Make-A-Video 更好的模型，大家都能用的那种！

而就在前几天，ICLR 网站上也出现了一篇相关论文 Phenaki。

生成效果是这样的：

对了，虽然 Make-A-Video 尚未公开，但 Meta AI 官方也表示，准备推出一个 Demo 让大家可以实际上手体验，感兴趣的小伙伴可以蹲一波了~

论文地址：

https://makeavideo.studio/Make-A-Video.pdf

参考链接：

[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊 Alex

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

文本图像生成模型超进化版

One More Thing

Published by

风君子

发表回复取消回复

文本图像生成模型超进化版

One More Thing

Published by

风君子

发表回复 取消回复

发表回复取消回复