Meta tocmai și-a lansat propriul Sora înainte de OpenAI – Meta Movie Gen
Meta Movie Gen are tot ce are Sora, inclusiv capacitatea de a crea videoclipuri HD lungi cu diferite rapoarte de aspect și suport pentru 1080p, 16 secunde și 16 cadre pe secundă.
De asemenea, face ceea ce Sora nu face, generând muzică de fundal și efecte sonore însoțitoare, editând videoclipuri pe baza comenzilor text și generând videoclipuri personalizate pe baza imaginilor încărcate de utilizator.
Să vedem ce poate face meta:
Camera este în spatele unui bărbat. Bărbatul este fără cămașă, poartă o cârpă verde în jurul taliei. El este desculț. Cu un obiect de foc în fiecare mână, el creează mișcări circulare largi. O mare calmă este în fundal. Atmosfera este fascinantă, cu dansul focului.
Un urs koala pufos, cu blană gri și albă și un nas rotund, surfează pe o placă de surf galbenă. Koala se ține de placa de surf cu labele și are o expresie facială concentrată în timp ce călătorește pe valuri. Soarele strălucește.
O maimuță cu față roșie cu blană albă se bucură de o baie într-un izvor termal natural. Maimuța jucăușă se distrează cu o barcă cu pânze din lemn în miniatură, completată cu o pânză albă și o cârmă mică. Izvorul termal este amplasat în mijlocul unei verzi luxuriante, înconjurat de stânci și copaci.
Pur și simplu, „puneți lumina pe bulele de pe cer” poate crea efecte vizuale frumoase și, în același timp, arată perfect obiectele din scenă și, în același timp, poate reflecta frumos cerul, arătând mai expresiv.
Tunetele trosnesc puternic, însoțite de o piesă muzicală orchestrală.
Consistența caracterului este foarte puternică.
Puteți edita videoclipuri direct, doar tastând text.
Creați efecte sonore și coloane sonore Doar introduceți text
Utilizați introducerea video și text pentru a genera sunet pentru videoclipul dvs. Movie Gen vă permite să creați și să extindeți efecte sonore, muzică de fundal sau coloane sonore întregi.
Meta spune că este cel mai avansat model Media Foundation de până acum”.
Unii spun că este greu de imaginat cum vor arăta videoclipurile lungi și scurte în câțiva ani, deoarece un număr mare de creatori învață să folosească instrumente de editare video AI.
De data aceasta, spre deosebire de Sora, care are doar un demo și un blog oficial, Meta a făcut publice detaliile de arhitectură și antrenament într-o lucrare de 92 de pagini.
https://arxiv.org/pdf/2410.02746
Dar modelul în sine nu este încă open source și a fost întâlnit cu ingineri cu fața îmbrățișată care își lipeau fețele în aer și aruncau un link către pagina de pornire open source a Meta direct în secțiunea de comentarii:
Aici te așteaptă acum.
În lucrarea sa, Meta subliniază în mod specific faptul că scalarea dimensiunii datelor, a dimensiunii modelului și a aritmeticii de antrenament este esențială pentru antrenarea modelelor de generare media la scară largă. Prin îmbunătățirea sistematică a acestor dimensiuni, este posibil să se realizeze un sistem de generare media atât de puternic.
Unul dintre cele mai preocupate puncte este că de data aceasta au aruncat complet modelul de difuzie și funcția de pierdere a difuziei, folosind Transformer ca rețea principală și Flow Matching ca țintă de antrenament.
Spațiul de generare a videoclipurilor AI a fost plin de activitate în ultimele două zile.
Cu puțin timp înainte ca Meta să lanseze Movie Gen, Tim Brooks, unul dintre creatorii OpenAI Sora, a sărit la Google DeepMind pentru a-și continua munca pe generarea de videoclipuri și simulatoare mondiale.
Acest lucru i-a făcut pe mulți să se gândească, la fel ca atunci când Google a întârziat să lanseze aplicația Big Model și autorii Transformer 8 au plecat în mulțime.
Acum OpenAI întârzie să lanseze Sora, iar autorii principali au fugit și ei.
Dar alții cred că alegerea lui Tim Brooks de a pleca acum poate indica faptul că munca sa principală la OpenAI este încheiată și a condus la speculații:
Lansarea lui Meta a forțat OpenAI să lanseze Sora ca răspuns?
(În momentul scrierii acestui articol, celălalt creator al Sorei, Bill Peebles, încă nu a vorbit.)
Acum Meta a lansat modele cu capabilități de editare video, plus actualizarea Pika 1.5 din 1 octombrie, care se concentrează pe adăugarea de efecte fizice precum topirea, extinderea și strângerea obiectelor din videoclipuri.
Nu este greu de văzut că a doua jumătate a generației video AI va începe să se îndrepte către editarea video AI.