Meta 剛在 OpenAI 之前推出自己的 Sora - Meta Movie Gen


Meta Movie Gen 擁有 Sora 的一切功能,包括製作不同長寬比的長 HD 影片,以及支援 1080p、16 秒和每秒 16 畫格。
它還能做 Sora 做不到的事,產生伴奏背景音樂和音效、根據文字指令編輯影片,以及根據使用者上傳的圖片產生個人化影片。

讓我們看看 meta 能做什麼 :

 攝影機在一名男子身後。他沒穿上衣,腰間圍著一塊綠布。他赤腳。他雙手各持一個火熱的物件,創造出寬廣的圓形動作。背景是一片平靜的大海。火舞的氣氛令人著迷。

一隻灰白色毛髮、鼻子圓圓、毛茸茸的考拉熊正在黃色的衝浪板上衝浪。考拉用爪子抓著衝浪板,面部表情專注地乘風破浪。陽光明媚。
一隻紅臉白毛的猴子正在享受泡天然溫泉的樂趣。這隻頑皮的猴子正拿著一艘迷你木帆船自娛自樂,船上還有一張白色的帆和一個小船舵。溫泉坐落在綠意盎然的森林中,四周環繞著岩石和樹木。

簡單來說 「把燈打在天空中的氣泡上 」可以創造出美麗的視覺效果,同時完美地展示出場景中的物件,同時可以美麗地反射出天空,看起來更有表現力。

雷聲巨響,伴隨著管弦樂曲。

角色的一致性非常強。

您可以直接編輯影片,只要輸入文字即可。

製作音效和配樂 只要輸入文字

使用視訊和文字輸入為影片產生音訊。Movie Gen 可讓您建立和延伸音效、背景音樂或整個音軌。


Meta 表示這是迄今為止最先進的媒體基金會模型。



有人說很難想像幾年後,當大量的創作者學會使用 AI 視訊編輯工具後,長短影片會變成什麼樣子。
這次,不像 Sora 只有試玩版和官方部落格,Meta 在 92 頁的文件中公開了架構和訓練細節。

https://arxiv.org/pdf/2410.02746


但這個模型本身還沒有開放原始碼,而且還被抱臉的工程師們把臉伸到空中,直接在評論區丟下 Meta 開放原始碼首頁的連結:
在這裡等著你


Meta 在其論文中特別強調,資料大小、模型大小、訓練算式的縮放對於訓練大規模的媒體產生模型至關重要。透過有系統地改善這些層面,就有可能製造出這樣強大的媒體生成系統。
其中最令人關注的一點是,這次他們完全拋棄了擴散模型和擴散損失函數,使用 Transformer 作為骨幹網路,Flow Matching 作為訓練目標。




過去幾天,AI 視訊產生領域熱鬧非凡。


在 Meta 發表 Movie Gen 前不久,OpenAI Sora 的創造者之一 Tim Brooks 跳槽到 Google DeepMind,繼續他在視訊產生與世界模擬器方面的工作。
這引起了很多人的思考,就像當初 Google 遲遲不推出 Big Model 應用程式,Transformer 8 的作者也紛紛離開一樣。
現在 OpenAI 遲遲未推出 Sora,主要作者也跑路了。
但也有人認為,Tim Brooks 現在選擇離開,可能表示他在 OpenAI 的主要工作已經完成,也引發外界的猜測:
Meta 的推出是否迫使 OpenAI 推出 Sora 作為回應?
(截至本文撰寫為止,Sora 的另一位創作者 Bill Peebles 仍未發表聲明)。
現在 Meta 推出了具有視訊編輯功能的模型,加上 10 月 1 日的 Pika 1.5 更新,主要是為視訊中的物件加入融化、擴大和擠壓等物理效果。
不難發現,AI 視訊世代的下半場,將開始滾向 AI 視訊編輯。