Meta lanserade precis sin egen Sora innan OpenAI – Meta Movie Gen
Meta Movie Gen har allt som Sora har, inklusive möjligheten att skapa långa HD-videor med olika bildförhållanden och stöd för 1080p, 16 sekunder och 16 bilder per sekund.
Den gör också vad Sora inte gör, genererar tillhörande bakgrundsmusik och ljudeffekter, redigerar videor baserat på textkommandon och genererar personliga videor baserat på bilder som laddats upp av användaren.
Låt oss se vad meta kan göra :
Kameran är bakom en man. Mannen är bar överkropp, bär ett grönt tyg runt midjan. Han är barfota. Med ett eldigt föremål i varje hand skapar han breda cirkulära rörelser. Ett lugnt hav är i bakgrunden. Stämningen är fascinerande, med elddansen.
En fluffig koalabjörn med grå och vit päls och en rund näsa surfar på en gul surfbräda. Koalan håller fast i surfbrädan med tassarna och har ett fokuserat ansiktsuttryck när den rider på vågorna. Solen skiner.
En apa med röd ansikte med vit päls njuter av ett blöt i en naturlig varm källa. Den lekfulla apan roar sig med en träsegelbåt i miniatyr, komplett med ett vitt segel och ett litet roder. Den varma källan ligger inbäddad bland frodig grönska, omgiven av stenar och träd.
Enkelt uttryckt "sätt ljuset på bubblorna på himlen" kan skapa vackra visuella effekter, och samtidigt perfekt visa objekten i scenen, och samtidigt vackert reflektera himlen och se mer uttrycksfull ut.
Åskan knakar högt, ackompanjerad av ett orkestralt musikspår.
Karaktärskonsistensen är mycket stark.
Du kan redigera videor direkt, bara genom att skriva in text.
Skapa ljudeffekter och ljudspår Skriv bara in text
Använd video- och textinmatning för att generera ljud för din video. Movie Gen låter dig skapa och utöka ljudeffekter, bakgrundsmusik eller hela ljudspår.
Meta säger att det är de mest avancerade Media Foundation-modellerna hittills.
Vissa säger att det är svårt att föreställa sig hur långa och korta videor kommer att se ut om några år eftersom ett stort antal kreatörer lär sig att använda AI-videoredigeringsverktyg.
Den här gången, till skillnad från Sora, som bara har en demo och en officiell blogg, har Meta gjort arkitekturen och träningsdetaljerna offentliga i ett 92-sidigt papper.
https://arxiv.org/pdf/2410.02746
Men själva modellen är ännu inte öppen källkod, och möttes av ingenjörer med kram-ansikte som stack sina ansikten i luften och släppte en länk till Metas öppen källkodshemsida direkt i kommentarsfältet:
Här väntar på dig nu.
I sin artikel betonar Meta specifikt att skalning av datastorlek, modellstorlek och träningsaritmetik är avgörande för att träna storskaliga mediegenereringsmodeller. Genom att systematiskt förbättra dessa dimensioner är det möjligt att göra ett så kraftfullt mediegenereringssystem.
En av de mest bekymrade punkterna är att de den här gången helt kastade bort diffusionsmodellen och diffusionsförlustfunktionen, med hjälp av Transformer som ryggradsnätverk och Flow Matching som träningsmål.
AI-videogenereringsutrymmet har surrat av aktivitet under de senaste dagarna.
Strax innan Meta släppte Movie Gen hoppade Tim Brooks, en av skaparna av OpenAI Sora, till Google DeepMind för att fortsätta sitt arbete med videogenerering och världssimulatorer.
Detta fick många att tänka till, precis som när Google var långsam med att släppa Big Model-appen och Transformer 8-författarna lämnade i massor.
Nu är OpenAI sena med att släppa Sora, och huvudförfattarna har också sprungit iväg.
Men andra tror att Tim Brooks val att lämna nu kan tyda på att hans huvudsakliga arbete på OpenAI är klart och har lett till spekulationer:
Tvingade Metas lansering OpenAI att släppa Sora som svar?
(När detta skrivs har Soras andra skapare, Bill Peebles, ännu inte uttalat sig.)
Nu har Meta släppt modeller med videoredigeringsmöjligheter, plus 1 oktober uppdateringen Pika 1.5, som fokuserar på att lägga till fysikeffekter som att smälta, expandera och klämma till objekt i videor.
Det är inte svårt att se att den andra hälften av AI-videogenerationen kommer att börja rulla mot AI-videoredigering.