PixelDance er den beste tekst-til-video-modellen - 8PixLabs.com

ByteDance nye utgivelser AI-videomodell – Farvel Sora, tiden din har gått.

Akkurat nå er lanseringen av ByteDances Volcano Engine i utgangspunktet over.
Jeg er litt overspent akkurat nå.
Selv om lanseringen er over, føler jeg at en helt ny begynnelse for å forstyrre bransjen har nå offisielt kommet.

Innholdsfortegnelse

ByteDance har offisielt sluppet sine to nye AI-videomodeller:

Doubao Video Generation – PixelDance-modell og Seaweed-modell.
Jeg skal snakke mer om Seaweed-modellen neste gang. Denne gangen vil jeg snakke om denne Doubao PixelDance-modellen fordi den er så dum, så dum, at jeg bokstavelig talt så på den med ærefrykt hele tiden.

I det øyeblikket de offisielt annonserte dette, var det så mye applaus at jeg følte at jeg skulle blåse taket av huset fra skjermen.
Virkelig, hvis jeg måtte oppsummere denne Doubao PixelDance-modellen, ville det vært med tre ord:
Kompleks kontinuerlig bevegelse av karakterer, kombinasjonsvideo med flere kameraer og ekstrem kamerakontroll.
Høres litt vanskelig ut å forstå, ikke sant? Ingen hast, jeg vil forklare i detalj.

Jeg satte først noen tilfeller for å føle sjokket over denne tingen:

Virkelig, film-og TV-industrien før, nesten ikke kan bruke AI, er fordi karakter ytelsen er for søppel, og scenen og karakteren konsistens er for dårlig, driften av speilet for å være ærlig er ikke bra.

Nå har ByteDance gått inn og tatt AI-video til et helt nytt nivå.

Det unike med bransjeforstyrrelser har offisielt ankommet i dag, ved nettopp denne lanseringen.
Og jeg, etter å ha holdt pusten i 4 hele dager, kan endelig sende ut denne artikkelen.
Ja, for 4 dager siden ble jeg invitert av ByteDance, målte denne Doubao PixelDance-modellen på forhånd, på den tiden ble jeg sjokkert over ord, du vet, som blogger, etter å ha målt en så cocky ting, vil jeg naturligvis være første gang å dele den ut, men på grunn av konfidensialitetsavtalen kan jeg bare ikke si et ord om det.
Så du vet bare hvor vanskelig det var for meg å holde det på disse 4 dagene.
Og nå kommer alt sammen. Jeg kan endelig snakke.
Tilbake til de tre viktigste funksjonene:
Komplekse kontinuerlige bevegelser av karakterene, kombinasjonsvideoer med flere kameraer og ekstrem kamerakontroll.

Karakterer kan gjøre kontinuerlig handling

Tidligere har AI-videoer et veldig fatalt poeng, det vil si at de ser ut som PPT-animasjon.

Enten det er Soras video, eller rullebane, eller Keling, etc., bevegelsesamplituden, men bare linsens amplitude er stor, er det aldri en kompleks bevegelse av mennesker.
På toppen av dagen, snu deg, eller ta en rask løpetur, eller vink eller klem. Ærlig talt, bare klemmen alene, ikke mange AI-videoer kan gjøre det.
Og hva om du hadde jenta på bildet, ta av deg solbrillene, reise deg og gå mot statuen?

Alle AI-videoer, alle døde i aksjon.
Og denne gangen gjorde Doubao PixelDance det, bokstavelig talt.

Bortsett fra noe mindre flimring av klokken på hånden, var karakterproporsjonene, bevegelsene, lemmene, belysningen osv. nesten feilfrie.
Et skuespill ser bra ut, folks handling ytelse, er den viktigste ah.
For eksempel, i The King of Comedy, i den siste scenen, Stephen Chows Yin Tian Xiu, etter å ha ropt den klassiske "I'll support you"-linjen til Liu Piao Piao, sitter Liu Piao Piao i drosjen som går og gråter veldig trist, ser på pengene og klokken i hånden en stund, og tar dem deretter opp i vesken hennes, og drar dem i vesken. Skuespillere”, som hun ser på som sin tro, og gråter veldig trist. Selvdyrking av skuespilleren, og klemte den trist til brystet.
Denne forestillingen, den er kontinuerlig. Det er det som er kontinuerlig som har spenning. Det er bare når du kan føle det, den vonde følelsen.

Og nå, med AI, er det ikke lenger tomt snakk å generere karakterprestasjoner som kan gjøre kontinuerlige handlinger.

Se på et annet tilfelle der en mann tar en slurk kaffe, så legger den fra seg, og en kvinne kommer opp bakfra.

Dessuten er karakteruttrykkene dope, den gamle mannen smiler og ler, så gråter.

Jeg vil egentlig også gråte.
Da jeg laget traileren til Wandering Earth 3 i august i fjor, fantaserte jeg om en million muligheter for AI med karakterskuespill.
Nå, bare ett år senere, har Doubao hjulpet meg med å oppfylle denne største drømmen.

Kombinasjonsvideo med flere kameraer

Muligheten til å generere en video med flere kameraer med konsekvent stil, scene og karakterer fra ett enkelt bilde + Spørring er noe jeg bare har sett i Soras promo.
Det er den berømte videoen av en ulv som hyler mot månen.

Faktisk, for å være ærlig, var denne videoen på den tiden veldig sjokkerende å se, men det er faktisk greit å se den nå; stilen, karakterene og scenene er så enkle at konsistensen er godt vedlikeholdt, og det er ingen komplisert historie eller subplott.
Men det er det, nå er det fortsatt ingen AI-video som kan ta flere bilder i en enkelt video og fortsatt ha perfekt konsistens.
Ikke engang få meg i gang med LTX-studiogreiene, det er greit for storyboards, men en spillefilm? Vask rumpa, ikke engang snakk om scenene, det er vanskelig å holde karakterene i panorama-, medium- og nærbilder uniform. Og det er skikkelig stygt.
Men nå klarte Doubao PixelDance det, og konsistensen er rett og slett uslåelig, egentlig.
Og det tar bare ett bilde + ledetekst.
For eksempel denne.

Melding: døden med ljå nærmer seg kvinnen. Nærbilde av kvinnens ansikt mens hun skriker av redsel.

Ekstrem kamerakontroll

Doubao PixelDance-modellering er den mest opprørende og fantastiske jeg noen gang har sett.
Nå AI video linse kontroll, fortsatt i utgangspunktet fokusert på kameraet + bevegelse børste kombinasjon av to funksjoner, men for å være ærlig, den øvre grensen er virkelig begrenset, mye stort objektiv og zoom, kan rett og slett ikke gjøres.
Og Doubao PixelDance, effekten er virkelig opprørende.
Hvilket fugleperspektiv som zoomer opp og roterer denne typen basismanipulasjon sier jeg ikke, nøkkelen er, med et ord, en rekke 360 grader rundt motivet av surround, front- og bakvisningszoom, panorering, målfølge, løfting og senking av linsen til hva som helst.
Effekten er overraskende bra, jeg så for første gang, i AI-videoen, kan transportspeil være så fantastisk, så kult.
Se direkte på saken.

Spør: kvinnen smiler og senker hodet, kameraet trekker seg unna, og en hvit mann stirrer på kvinnen.

Zoomen er ekstremt naturlig og jevn, uovervinnelig, for uovervinnelig.
Og så er det denne, en 360-graders drastisk dribbler.
Spør: svart-hvitt-stil, kameraet fotograferer rundt kvinnen med solbriller, beveger seg fra siden til fronten og fokuserer til slutt på et nærbilde av kvinnens ansikt.

Dette er et bilde, og deretter en oppfordring, kan du tro det? Dette bevegelsesområdet, denne stabiliteten, enn den jævla modelleringen ut av det opprørende, er jeg virkelig overbevist om.
Hvordan kan du la fotografene fortsatt spille, gale ah...

Skriv til slutt

Sora en gigantisk futures, fra 2.16. til i dag, sent til å se spor.
Og så, 6.6, kan Ling stille, offisielt online, på vegne av produksjonen av Kina Sora.
Og i dag, 9.24, ByteDances igjen AI-video, presset til et helt nytt nivå, er en i Soras reklamevideo, kan ikke se høyden.
Så langt trenger ikke Kina Sora, Doubao-modellen er himmelen.
Doubao PixelDance trenger heller ikke noen kinesisk versjon av Soras kallenavn, Doubao PixelDance er Doubao PixelDance, han er nå AI-videoens dager.
Også til dette punktet, AI video er ikke lenger et leketøy, men en ekte, kan gå inn i film og TV, reklame, animasjon arbeidsflyt, bringe litt ny fantasi.
Dette skuddet ble avfyrt av oss.
I dag vil denne Doubao PixelDance-modellen prioritere bedriften til å åpne invitasjonen til å teste, om noen dager på vulkanen arken, som for når på linjen som drømmen til C-bruker full åpen, kan måtte vente i en periode, tross alt, er for ny, sa de at de fortsatt ønsker å optimalisere optimalisere modellen evne, stabil, deretter direkte på hele linjen.
Virkelig, det har aldri vært noe mirakel, alt er opphopning av mange år med nedbør, alt er som lovet.
I dag kan jeg også rope den linjen:

Annen video generert av PixelDance:

Endelig ： Hvordan søke om PixelDance NÅ?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

Registrer først kontoen din:

账号登录-火山引擎 (volcengine.com)

Logg på med mobiltelefonen.

Søk tilgang her:

Nå har du gjort det, venter på svar