Meta が OpenAI に先駆けて独自の Sora をリリース – Meta Movie Gen


Meta Movie Gen には、さまざまなアスペクト比の長い HD ビデオを作成する機能や、1080p、16 秒、16 フレーム/秒のサポートなど、Sora のすべての機能が備わっています。
また、Sora ではできない、付随するバックグラウンド ミュージックや効果音の生成、テキスト コマンドに基づくビデオの編集、ユーザーがアップロードした画像に基づくパーソナライズされたビデオの生成も実行できます。

メタが何ができるか見てみましょう:

 カメラは男性の後ろにあります。男性は上半身裸で、腰に緑の布を巻いています。裸足です。両手に火のついた物を持ち、大きく円を描くように動きます。背景には穏やかな海があります。火のダンスで魅惑的な雰囲気が漂っています。

灰色と白の毛と丸い鼻を持つふわふわのコアラが、黄色いサーフボードでサーフィンをしています。コアラは前足でサーフボードをつかみ、波に乗るときには集中した表情をしています。太陽が輝いています。
白い毛皮を持つ赤い顔の猿が、天然温泉に浸かって楽しんでいます。遊び好きな猿は、白い帆と小さな舵が付いたミニチュアの木造帆船で遊んでいます。温泉は岩や木々に囲まれた豊かな緑に囲まれています。

簡単に言えば、「空の泡に光を当てる」ことで、美しい視覚効果を生み出すことができ、同時にシーン内のオブジェクトを完璧に表示し、同時に空を美しく映し出すことができ、より表現力豊かに見えます。

オーケストラの音楽トラックに合わせて、雷が大きく鳴り響きます。

キャラクターの一貫性が非常に強いです。

テキストを入力するだけで、ビデオを直接編集できます。

サウンドエフェクトとサウンドトラックを作成する テキストを入力するだけ

ビデオとテキスト入力を使用して、ビデオのオーディオを生成します。Movie Gen を使用すると、サウンド効果、バックグラウンド ミュージック、またはサウンドトラック全体を作成および拡張できます。


Meta によれば、これはこれまでで最も先進的なメディア基盤モデルです。



多くのクリエイターが AI 動画編集ツールの使い方を学ぶようになると、数年後には長編動画や短編動画がどのようなものになるのか想像するのは難しいと言う人もいます。
今回、デモと公式ブログのみを持つSoraとは異なり、Metaは92ページの論文でアーキテクチャとトレーニングの詳細を公開しました。

https://arxiv.org/pdf/2410.02746


しかし、モデル自体はまだオープンソースではなく、ハグ顔のエンジニアたちが顔を突き出してコメント欄にMetaのオープンソースホームページへのリンクを直接投稿した。
今ここであなたを待っています。


Meta は論文の中で、データ サイズ、モデル サイズ、トレーニング演算のスケーリングが大規模なメディア生成モデルのトレーニングに非常に重要であると特に強調しています。これらの側面を体系的に改善することで、このような強力なメディア生成システムを作成できます。
最も懸念される点の 1 つは、今回は拡散モデルと拡散損失関数を完全に捨て去り、Transformer をバックボーン ネットワークとして使用し、Flow Matching をトレーニング ターゲットとして使用したことです。




AI ビデオ生成の分野では、ここ数日、活発な活動が続いています。


MetaがMovie Genをリリースする少し前に、OpenAI Soraの開発者の一人であるTim Brooks氏がGoogle DeepMindに移籍し、ビデオ生成と世界シミュレーターの研究を続けました。
これは、Google が Big Model アプリのリリースに時間がかかり、Transformer 8 の作者たちが大挙して去っていったときと同じように、多くの人々に考えさせました。
現在、OpenAI は Sora のリリースに遅れており、主要な著者も逃げてしまいました。
しかし、ティム・ブルックス氏が今退職を選択したことは、彼のOpenAIでの主な仕事が終了したことを示しているのではないかと考える人もおり、次のような憶測が飛び交っている。
Meta のリリースにより、OpenAI はそれに応じて Sora をリリースせざるを得なくなったのでしょうか?
(この記事の執筆時点では、ソラのもう一人の作者であるビル・ピーブルズはまだコメントを出していない。)
現在、Meta はビデオ編集機能を備えたモデルをリリースしており、さらに 10 月 1 日の Pika 1.5 アップデートでは、ビデオ内のオブジェクトに溶解、拡張、圧縮などの物理効果を追加することに重点が置かれています。
AI ビデオ生成の後半が AI ビデオ編集に向かって進み始めることは容易に想像できます。