PixelDance är den bästa text-till-video-modellen - 8PixLabs.com

ByteDance New Releases AI Video Model - Adjö Sora, din tid har gått.

Just nu är lanseringen av ByteDance's Volcano Engine i princip över.
Jag är lite överexalterad just nu.
Även om lanseringen är över, känner jag att en helt ny början för att förändra branschen just nu officiellt har kommit.

Innehållsförteckning

ByteDance har officiellt släppt sina två nya AI-videomodeller:

Doubao Video Generation - PixelDance-modellen och Seaweed-modellen.
Jag ska prata mer om Seaweed-modellen nästa gång. Den här gången vill jag prata om den här Doubao PixelDance-modellen eftersom den är så häftig, så häftig, att jag bokstavligen tittade på den i vördnad hela tiden.

När de officiellt tillkännagav den här saken applåderades det så mycket att det kändes som om jag skulle blåsa av taket på huset från skärmen.
Verkligen, om jag var tvungen att sammanfatta denna Doubao PixelDance-modell, skulle det vara med tre ord:
Komplex kontinuerlig rörelse av karaktärer, kombinationsvideo med flera kameror och extrem kamerakontroll.
Låter lite svårt att förstå, eller hur? Ingen brådska, jag ska förklara i detalj.

Jag satte först in några lådor, för att känna chocken av den här saken:

Verkligen, film- och tv-industrin tidigare, kan nästan inte använda AI, beror på att karaktärsprestanda är för skräp, och scenen och karaktärskonsistensen är för dålig, driften av spegeln för att vara ärlig är inte bra.

Nu har ByteDance klivit in och tagit AI-video till en helt ny nivå.

Den singulära störningen av industrin har officiellt anlänt idag, vid just denna lansering.
Och jag, efter att ha hållit andan i fyra hela dagar, kan äntligen skicka ut den här artikeln.
Ja, för 4 dagar sedan blev jag inbjuden av ByteDance, mätte denna Doubao PixelDance-modell i förväg, vid den tiden blev jag chockad bortom ord, du vet, som bloggare, efter att ha mätt en sådan kaxig sak, vill naturligtvis vara första gången att dela ut den, men på grund av sekretessavtalet kan jag bara inte säga ett ord om det.
Så du vet hur svårt det var för mig att hålla mig under de här fyra dagarna.
Och nu börjar allt falla på plats. Jag kan äntligen prata, för fan.
Tillbaka till de tre viktigaste funktionerna:
Komplexa kontinuerliga rörelser hos rollfigurerna, kombinationsvideor med flera kameror och extrem kamerakontroll.

Karaktärer kan göra kontinuerliga handlingar

Tidigare har AI-videor en mycket ödesdiger punkt, det vill säga de ser ut som PPT-animering.

Oavsett om det är Soras video, eller landningsbana, eller Keling, etc., rörelseamplituden, men bara linsamplituden är stor, det finns aldrig en komplex rörelse av människor.
När dagen är slut, vänd dig om eller ta en snabb löprunda, vinka eller kramas. Ärligt talat, bara kramen ensam, inte många AI-videor kan göra det.
Och vad händer om du låter flickan på bilden ta av sig solglasögonen, ställa sig upp och gå mot statyn?

Alla AI-videor, alla döda i aktion.
Och den här gången gjorde Doubao PixelDance det, bokstavligen.

Bortsett från lite mindre flimmer av klockan på handen var karaktärens proportioner, rörelser, lemmar, belysning etc. nästan felfria.
En pjäs ser bra ut, människors handlingsprestanda, är den viktigaste ah.
Till exempel i The King of Comedy, i den sista scenen, sitter Stephen Chows Yin Tian Xiu, efter att ha ropat den klassiska repliken "I'll support you" till Liu Piao Piao, i den avgående taxin och gråter mycket sorgset, tittar på pengarna och klockan i sin hand ett tag, lägger dem sedan i sin väska och tar fram boken "Self-Cultivation of Actors", som hon betraktar som sin tro, och gråter mycket sorgset. Self-Cultivation of the Actor, och kramade den sorgset mot sitt bröst.
Den här föreställningen är kontinuerlig. Det är det som är kontinuerligt som har spänning. Det är bara när man kan känna det, den där värkande känslan.

Och nu, med AI, är det inte längre bara tomt prat att skapa karaktärsframställningar som kan utföra kontinuerliga handlingar.

Titta på ett annat fall där en man tar en klunk kaffe och sedan ställer ner den, och en kvinna kommer bakifrån.

Dessutom är karaktärsuttrycken grymma, den gamle mannen ler och skrattar och gråter sedan.

Jag vill också gråta, verkligen.
När jag gjorde trailern till Wandering Earth 3 i augusti förra året fantiserade jag om en miljon möjligheter för AI att göra karaktärsskådespeleri.
Nu, bara ett år senare, har Doubao hjälpt mig att uppfylla min största dröm.

Kombinationsvideo med flera kameror

Möjligheten att generera en video med flera kameror med konsekvent stil, scen och karaktärer från en enda bild + Prompt är något jag bara har sett i Soras promo.
Det är den berömda videon med en varg som ylar mot månen.

För att vara ärlig var den här videon faktiskt väldigt chockerande att titta på då, men det är faktiskt okej att titta på den nu; stilen, karaktärerna och scenerna är så enkla att konsekvensen är väl bibehållen, och det finns ingen komplicerad historia eller subplots.
Men det är allt, nu finns det fortfarande ingen AI-video som kan göra flera tagningar i en enda video och ändå ha perfekt konsistens.
Få mig inte ens att börja med LTX-studiogrejerna, det är bra för storyboards, men en långfilm? Tvätta röven, prata inte ens om scenerna, det är svårt att hålla karaktärerna i panorama-, mellan- och närbilder enhetliga. Och det är verkligen fult.
Men nu gjorde Doubao PixelDance det, och konsistensen är helt enkelt oslagbar, verkligen.
Och det krävs bara en bild + Prompt.
Till exempel den här.

Uppmaning: Död med lie närmar sig kvinnan. Närbild av kvinnans ansikte när hon skriker av skräck.

Extrem kamerakontroll

Doubao PixelDance-modellering är den mest upprörande och fantastiska jag någonsin har sett.
Nu är AI-videolinsens kontroll, fortfarande i grunden fokuserad på kameran + rörelseborstkombinationen av två funktioner, men för att vara ärlig är den övre gränsen verkligen begränsad, mycket stor lins och zoom, helt enkelt inte kan göras.
Och Doubao PixelDance, effekten är verkligen jävla upprörande.
Vilken fågelperspektiv zoomar upp och roterar den här typen av basmanipulation säger jag inte, nyckeln är, med ett ord, en mängd 360 grader runt ämnet surround, zoom framifrån och bakifrån, panorering, målföljning, lyft och sänkning av linsen av vad som helst kan vara.
Effekten är förvånansvärt bra, jag såg för första gången, i AI-videon, transportspegeln kan vara så fantastisk, så cool.
Titta direkt på fodralet.

Prompt: kvinnan ler och sänker huvudet, kameran drar sig undan och en vit man tittar på kvinnan.

Zoomen är extremt naturlig och smidig, oövervinnerlig, för oövervinnerlig.
Och så har vi den här, en 360-graders dribbling med en drastisk wrap-around.
Uppmaning: svartvit stil, kameran rör sig runt kvinnan som bär solglasögon, från sidan till framsidan, för att slutligen fokusera på en närbild av kvinnans ansikte.

Det här är en bild, och sen en uppmaning, kan du tro det? Rörelseomfånget, stabiliteten och den jävla modelleringen är helt otrolig. Jag är övertygad.
Hur kan du låta fotograferna fortfarande spela, galen ah ...

Skriv i slutet

Sora en gigantisk futures, från 2.16 till idag, sent att se några spår.
Och sedan, 6.6, kan Ling tyst, officiellt online, på uppdrag av produktionen av China Sora.
Och idag, 9.24, ByteDances igen AI-video, pressad till en helt ny nivå, är en i Soras reklamvideo, kan inte se höjden.
Hittills behöver Kina inte Sora, Doubao-modellen är himlen.
Doubao PixelDance behöver inte heller någon kinesisk version av Soras smeknamn, Doubao PixelDance är Doubao PixelDance, han är nu AI-videoens dagar.
Även till denna punkt är AI-video inte längre en leksak, utan en riktig, kan komma in i film och tv, reklam, animationsarbetsflöde, ge lite ny fantasi.
Det här skottet avfyrades av oss.
Idag kommer denna Doubao PixelDance-modell att prioritera företaget att öppna inbjudan att testa, om några dagar på vulkanarken, som för när på linjen som drömmer till C-användaren helt öppen, kan behöva vänta på en tidsperiod, trots allt, är för ny, de sa att de fortfarande vill optimera optimera modellförmågan, stabil, sedan direkt på linjen som drömmer, till helt öppen.
Verkligen, det har aldrig skett något mirakel, allt är ackumuleringen av många års nederbörd, allt är som utlovat.
I dag kan jag också ropa den repliken:

Annan video genererad av PixelDance:

Äntligen ： Hur ansöker man till PixelDance NOW?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

Registrera först ditt konto :

账号登录-火山引擎 (volcengine.com)

Logga in med din mobiltelefon.

Ansök om tillgång här:

Nu har du gjort det, plz väntar på svar