Meta právě spustila vlastní Sora před OpenAI – Meta Movie Gen


Meta Movie Gen má vše, co má Sora, včetně schopnosti vytvářet dlouhá HD videa s různými poměry stran a podporou 1080p, 16 sekund a 16 snímků za sekundu.
Dělá také to, co Sora ne, generuje doprovodnou hudbu na pozadí a zvukové efekty, upravuje videa na základě textových příkazů a generuje personalizovaná videa na základě obrázků nahraných uživatelem.

Podívejme se, co meta dokáže:

 Kamera je za mužem. Muž je bez košile, kolem pasu má zelenou látku. Je bosý. S ohnivým předmětem v každé ruce vytváří široké kruhové pohyby. V pozadí je klidné moře. Atmosféra je fascinující, s ohnivým tancem.

Nadýchaný medvídek koala s šedou a bílou srstí a kulatým nosem surfuje na žlutém surfu. Koala se svými tlapami drží surfového prkna a má soustředěný výraz obličeje, když jezdí na vlnách. Slunce svítí.
Zrzavá opice s bílou srstí si užívá koupel v přírodním horkém prameni. Hravá opice se zabaví s miniaturní dřevěnou plachetnicí, doplněnou bílou plachtou a malým kormidlem. Horký pramen je zasazený uprostřed svěží zeleně, obklopený skalami a stromy.

Jednoduše řečeno „dejte světlo na bubliny na obloze“ může vytvořit krásné vizuální efekty a zároveň dokonale ukázat objekty ve scéně a zároveň může krásně odrážet oblohu a vypadat výrazněji.

Hlasitě praská hrom doprovázený orchestrální hudební stopou.

Konzistence postavy je velmi silná.

Videa můžete upravovat přímo, pouhým zadáním textu.

Vytvářejte zvukové efekty a soundtracky Stačí zadat text

Použijte video a textový vstup ke generování zvuku pro vaše video. Movie Gen umožňuje vytvářet a rozšiřovat zvukové efekty, hudbu na pozadí nebo celé zvukové stopy.


Meta říká, že je to dosud nejpokročilejší model Media Foundation.



Někteří říkají, že je těžké si představit, jak budou dlouhá a krátká videa vypadat za pár let, protože se velké množství tvůrců učí používat nástroje pro úpravu videa AI.
Tentokrát, na rozdíl od Sory, která má pouze demo a oficiální blog, Meta zveřejnila architekturu a detaily školení v 92stránkovém článku.

https://arxiv.org/pdf/2410.02746


Samotný model však ještě není open source a setkal se s inženýry s objímajícími tvářemi, kteří vystrčili tváře do vzduchu a přímo do sekce komentářů umístili odkaz na domovskou stránku s otevřeným zdrojovým kódem Meta:
Tady na vás teď čeká.


Meta ve svém příspěvku konkrétně zdůrazňuje, že škálování velikosti dat, velikosti modelu a trénovací aritmetiky je rozhodující pro trénování modelů generování médií ve velkém měřítku. Systematickým zlepšováním těchto dimenzí je možné vytvořit tak výkonný systém generování médií.
Jedním z nejvíce znepokojených bodů je, že tentokrát zcela zavrhli difúzní model a funkci difúzní ztráty, přičemž jako páteřní síť použili Transformer a jako cíl školení Flow Matching.




Prostor pro generování videa AI byl v posledních několika dnech rušný.


Krátce předtím, než Meta vydala Movie Gen, Tim Brooks, jeden z tvůrců OpenAI Sora, skočil do Google DeepMind, aby pokračoval ve své práci na generování videa a světových simulátorech.
To přimělo spoustu lidí přemýšlet, stejně jako když Google pomalu vydal aplikaci Big Model a autoři Transformer 8 houfně odešli.
Nyní se OpenAI opozdilo s vydáním Sora a hlavní autoři také utekli.
Jiní se ale domnívají, že rozhodnutí Tima Brookse nyní odejít může naznačovat, že jeho hlavní práce v OpenAI je hotová, což vedlo ke spekulacím:
Donutilo spuštění Meta OpenAI, aby v reakci na to vydalo Sora?
(V době psaní tohoto článku se další tvůrce Sory, Bill Peebles, ještě nevyjádřil.)
Nyní Meta vydala modely s možnostmi úpravy videa a navíc aktualizaci Pika 1.5 z 1. října, která se zaměřuje na přidávání fyzikálních efektů, jako je tání, roztahování a mačkání objektů ve videích.
Není těžké vidět, že druhá polovina generace AI videa se začne valit směrem k AI video editaci.