Meta lanserte nettopp sin egen Sora før OpenAI – Meta Movie Gen
Meta Movie Gen har alt Sora har, inkludert muligheten til å lage lange HD-videoer med forskjellige sideforhold og støtte for 1080p, 16 sekunder og 16 bilder per sekund.
Den gjør også det Sora ikke gjør, genererer tilhørende bakgrunnsmusikk og lydeffekter, redigerer videoer basert på tekstkommandoer, og genererer personlig tilpassede videoer basert på bilder lastet opp av brukeren.
La oss se hva meta kan gjøre :
Kameraet er bak en mann. Mannen er uten overkropp, iført en grønn klut rundt livet. Han er barbeint. Med en brennende gjenstand i hver hånd lager han brede sirkulære bevegelser. Et stille hav er i bakgrunnen. Stemningen er fascinerende, med ilddansen.
En luftig koalabjørn med grå og hvit pels og en rund nese surfer på et gult surfebrett. Koalaen holder fast i surfebrettet med potene og har et fokusert ansiktsuttrykk når den rir på bølgene. Solen skinner.
En ape med rød ansikt med hvit pels nyter et bad i en naturlig varm kilde. Den lekne apen underholder seg selv med en treseilbåt i miniatyr, komplett med et hvitt seil og et lite ror. Den varme kilden ligger omgitt av frodige grøntområder, omgitt av steiner og trær.
Enkelt sagt "sett lyset på boblene på himmelen" kan skape vakre visuelle effekter, og samtidig perfekt vise objektene i scenen, og samtidig vakkert reflektere himmelen, se mer uttrykksfulle ut.
Torden sprekker høyt, akkompagnert av et orkesterspor.
Karakterkonsistensen er veldig sterk.
Du kan redigere videoer direkte, bare ved å skrive inn tekst.
Lag lydeffekter og lydspor Bare skriv inn tekst
Bruk video- og tekstinndata for å generere lyd for videoen din. Movie Gen lar deg lage og utvide lydeffekter, bakgrunnsmusikk eller hele lydspor.
Meta sier at det er de mest avanserte Media Foundation-modellene til dags dato.
Noen sier det er vanskelig å forestille seg hvordan lange og korte videoer vil se ut om noen år ettersom et stort antall skapere lærer å bruke AI-videoredigeringsverktøy.
Denne gangen, i motsetning til Sora, som bare har en demo og en offisiell blogg, har Meta offentliggjort arkitekturen og treningsdetaljene i et 92-siders papir.
https://arxiv.org/pdf/2410.02746
Men selve modellen er ennå ikke åpen kildekode, og ble møtt med ingeniører med klem-ansikt som stakk ansiktene i været og la ned en lenke til Metas åpen kildekode-hjemmeside direkte i kommentarfeltet:
Her venter på deg nå.
I sin artikkel understreker Meta spesifikt at skalering av datastørrelse, modellstørrelse og treningsaritmetikk er avgjørende for opplæring av store mediegenereringsmodeller. Ved å systematisk forbedre disse dimensjonene er det mulig å lage et så kraftig mediegenereringssystem.
Et av de mest bekymrede punktene er at de denne gangen fullstendig kastet bort diffusjonsmodellen og diffusjonstapsfunksjonen, ved å bruke Transformer som ryggradsnettverk og Flow Matching som treningsmål.
Området for generering av AI-video har surret av aktivitet de siste par dagene.
Kort tid før Meta slapp Movie Gen, hoppet Tim Brooks, en av skaperne av OpenAI Sora, til Google DeepMind for å fortsette arbeidet med videogenerering og verdenssimulatorer.
Dette fikk mange til å tenke, akkurat som da Google var trege med å lansere Big Model-appen og Transformer 8-forfatterne dro i hopetall.
Nå er OpenAI sent ute med å gi ut Sora, og hovedforfatterne har også stukket av.
Men andre mener at Tim Brooks' valg om å forlate nå kan tyde på at hovedarbeidet hans hos OpenAI er gjort, og har ført til spekulasjoner:
Tvang Metas lansering OpenAI til å løslate Sora som svar?
(Når dette skrives, har Soras andre skaper, Bill Peebles, ennå ikke sagt fra.)
Nå har Meta gitt ut modeller med videoredigeringsmuligheter, pluss 1. oktober Pika 1.5-oppdateringen, som fokuserer på å legge til fysikkeffekter som smelting, utvidelse og klem til objekter i videoer.
Det er ikke vanskelig å se at andre halvdel av AI-videogenerasjonen kommer til å begynne å rulle mot AI-videoredigering.