Meta 在 OpenAI 之前推出了自己的 Sora – Meta Movie Gen


Meta Movie Gen 拥有 Sora 的所有功能,包括能够创建具有不同长宽比的长高清视频,并支持 1080p、16 秒和每秒 16 帧。
它还能做到 Sora 做不到的事情,生成背景音乐和音效、根据文本命令编辑视频,以及根据用户上传的图像生成个性化视频。

让我们看看 meta 能做什么:

 镜头在一名男子身后。这名男子赤裸上身,腰间围着一块绿布。他赤脚。他双手各握着一个燃烧的物体,画着大范围的圆周运动。背景是一片平静的大海。火舞的氛围令人着迷。

一只毛茸茸的考拉熊,长着灰白相间的皮毛和圆圆的鼻子,正在黄色的冲浪板上冲浪。考拉用爪子抓住冲浪板,在海浪中冲浪时表情专注。阳光灿烂。
一只长着白色皮毛的红脸猴子正在天然温泉中泡澡。这只顽皮的猴子正在玩一艘微型木制帆船,上面有白色的帆和一把小舵。温泉坐落在郁郁葱葱的绿地中,周围环绕着岩石和树木。

简单来说“把灯光放在天空中的气泡上”就能创造出美丽的视觉效果,同时完美地展现场景中的物体,同时还能优美地映衬天空,看起来更加富有表现力。

雷声轰鸣,伴随着管弦乐的旋律。

人物的连贯性很强。

您只需输入文本即可直接编辑视频。

创建音效和配乐 只需输入文字

使用视频和文本输入为您的视频生成音频。Movie Gen 可让您创建和扩展音效、背景音乐或整个配乐。


Meta 称这是迄今为止最先进的媒体基础模型”。



有人说,随着大量创作者学习使用AI视频编辑工具,很难想象几年后长视频和短视频会是什么样子。
这次,与仅有演示和官方博客的 Sora 不同,Meta 在一份 92 页的论文中公开了架构和训练细节。

https://arxiv.org/pdf/2410.02746


但该模型本身尚未开源,遭到了工程师们的热烈欢迎,他们纷纷伸出双手捧腹大笑,并在评论区直接放上了 Meta 开源主页的链接:
现在在这里等你。


Meta 在论文中特别强调,数据规模、模型规模和训练算法的扩展对于训练大规模媒体生成模型至关重要。通过系统地改进这些维度,才有可能做出如此强大的媒体生成系统。
其中最受关注的一点是,这次他们彻底抛弃了扩散模型和扩散损失函数,采用Transformer作为骨干网络,以Flow Matching作为训练目标。




过去几天,人工智能视频生成领域一直非常活跃。


在 Meta 发布 Movie Gen 之前不久,OpenAI Sora 的创建者之一 Tim Brooks 跳槽到 Google DeepMind,继续从事视频生成和世界模拟器方面的工作。
这引起了很多人的思考,就像谷歌迟迟未发布 Big Model 应用程序,导致 Transformer 8 的作者纷纷离开一样。
如今OpenAI迟迟不发布Sora,主要作者也跑了。
但其他人认为,Tim Brooks 选择现在离职可能表明他在 OpenAI 的主要工作已经完成,并引发猜测:
Meta 的发布是否迫使 OpenAI 发布 Sora 作为回应?
(截至撰写本文时,Sora 的另一位创作者 Bill Peebles 尚未发表任何言论。)
现在,Meta 已经发布了具有视频编辑功能的模型,以及 10 月 1 日的 Pika 1.5 更新,重点是为视频中的物体添加融化、膨胀和挤压等物理效果。
不难看出,AI视频时代的下半场,将开始向AI视频剪辑的方向滚动。