Meta ha appena lanciato il suo Sora prima di OpenAI – Meta Movie Gen
Meta Movie Gen ha tutto ciò che ha Sora, inclusa la possibilità di creare lunghi video HD con diversi rapporti di aspetto e il supporto per 1080p, 16 secondi e 16 fotogrammi al secondo.
Fa anche ciò che Sora non fa: genera musica di sottofondo ed effetti sonori, modifica i video in base ai comandi di testo e genera video personalizzati in base alle immagini caricate dall'utente.
Vediamo cosa può fare meta:
La telecamera è dietro un uomo. L'uomo è a torso nudo, indossa un panno verde attorno alla vita. È a piedi nudi. Con un oggetto infuocato in ogni mano, crea ampi movimenti circolari. Un mare calmo è sullo sfondo. L'atmosfera è ipnotizzante, con la danza del fuoco.
Un soffice orso koala con pelliccia grigia e bianca e un naso rotondo sta surfando su una tavola da surf gialla. Il koala si tiene stretto alla tavola da surf con le zampe e ha un'espressione facciale concentrata mentre cavalca le onde. Il sole splende.
Una scimmia dalla faccia rossa e dalla pelliccia bianca si sta godendo un bagno in una sorgente termale naturale. La scimmia giocosa si sta divertendo con una barca a vela in miniatura di legno, completa di vela bianca e piccolo timone. La sorgente termale è immersa in una vegetazione lussureggiante, circondata da rocce e alberi.
In parole povere, "mettere la luce sulle bolle nel cielo" può creare bellissimi effetti visivi e allo stesso tempo mostrare perfettamente gli oggetti nella scena e allo stesso tempo riflettere magnificamente il cielo, risultando più espressivo.
Il tuono rimbomba forte, accompagnato da una traccia musicale orchestrale.
La coerenza del personaggio è molto forte.
Puoi modificare i video direttamente, semplicemente digitando il testo.
Crea effetti sonori e colonne sonore Inserisci semplicemente il testo
Utilizza input video e di testo per generare audio per il tuo video. Movie Gen ti consente di creare ed estendere effetti sonori, musica di sottofondo o intere colonne sonore.
Meta afferma che si tratta del modello Media Foundation più avanzato finora disponibile.
Alcuni sostengono che sarà difficile immaginare come saranno i video lunghi e corti tra qualche anno, dato che un gran numero di creatori sta imparando a usare strumenti di editing video basati sull'intelligenza artificiale.
Questa volta, a differenza di Sora, che ha solo una demo e un blog ufficiale, Meta ha reso pubblici i dettagli dell'architettura e della formazione in un documento di 92 pagine.
https://arxiv.org/pdf/2410.02746
Ma il modello in sé non è ancora open source, e ha incontrato ingegneri che si sono abbracciati, alzando il volto al cielo e inserendo un collegamento alla homepage open source di Meta direttamente nella sezione commenti:
Adesso sono qui ad aspettarti.
Nel suo articolo, Meta sottolinea specificamente che il ridimensionamento delle dimensioni dei dati, delle dimensioni del modello e dell'aritmetica di addestramento è fondamentale per l'addestramento di modelli di generazione di media su larga scala. Migliorando sistematicamente queste dimensioni, è possibile realizzare un sistema di generazione di media così potente.
Uno degli aspetti più preoccupanti è che questa volta hanno completamente eliminato il modello di diffusione e la funzione di perdita di diffusione, utilizzando Transformer come rete principale e Flow Matching come target di addestramento.
Negli ultimi due giorni, il settore della generazione di video basati sull'intelligenza artificiale è stato molto attivo.
Poco prima che Meta pubblicasse Movie Gen, Tim Brooks, uno dei creatori di OpenAI Sora, passò a Google DeepMind per continuare il suo lavoro sulla generazione di video e sui simulatori di mondo.
Ciò ha fatto riflettere molte persone, proprio come quando Google è stato lento nel rilasciare l'app Big Model e gli autori di Transformer 8 se ne sono andati in massa.
Ora OpenAI è in ritardo con il rilascio di Sora e anche gli autori principali sono scappati.
Ma altri credono che la scelta di Tim Brooks di andarsene ora possa indicare che il suo lavoro principale presso OpenAI è terminato, e ha dato origine a speculazioni:
Il lancio di Meta ha costretto OpenAI a rilasciare Sora in risposta?
(Al momento in cui scrivo, l'altro creatore di Sora, Bill Peebles, non ha ancora rilasciato dichiarazioni.)
Ora Meta ha rilasciato modelli con funzionalità di editing video, oltre all'aggiornamento Pika 1.5 del 1° ottobre, che si concentra sull'aggiunta di effetti fisici come fusione, espansione e compressione agli oggetti nei video.
Non è difficile prevedere che la seconda metà della generazione di video basati sull'intelligenza artificiale inizierà a orientarsi verso l'editing video basato sull'intelligenza artificiale.