ByteDance New Releases AI Video Model - Addio Sora, il tuo tempo è passato.

Il lancio del Volcano Engine di ByteDance è praticamente terminato.
Sono un po' sovraeccitato in questo momento.
Anche se il lancio è terminato, sento che un nuovo inizio per sconvolgere l'industria è, in questo momento, ufficialmente arrivato.


ByteDance ha rilasciato ufficialmente i suoi due nuovi modelli video AI:


Generazione di video Doubao - Modello PixelDance e modello Seaweed.
Parlerò ancora del modello Seaweed la prossima volta. Questa volta voglio parlare del modello Doubao PixelDance perché è così bello, così bello che l'ho guardato letteralmente con stupore per tutto il tempo.

Nel momento in cui hanno annunciato ufficialmente questa cosa, ci sono stati così tanti applausi che mi sembrava di far saltare il tetto della casa dallo schermo.
Se dovessi riassumere questo modello Doubao PixelDance, lo farei in tre parole:
Movimento continuo e complesso dei personaggi, video con combinazione di più telecamere e controllo estremo della telecamera.
Sembra un po' difficile da capire, vero? Non c'è fretta, ve lo spiegherò in dettaglio.

Per prima cosa ho messo alcuni casi, per sentire lo shock di questa cosa:

Davvero, l'industria cinematografica e televisiva prima, quasi non può utilizzare l'IA, è perché, la performance del personaggio è troppo spazzatura, e la scena e la coerenza del personaggio è troppo scarsa, il funzionamento dello specchio per essere onesti non è buono.

Ora ByteDance è intervenuta portando i video AI a un livello completamente nuovo.


La singolarità della disruption del settore è arrivata ufficialmente oggi, proprio in occasione di questo lancio.
E io, dopo aver trattenuto il fiato per 4 giorni interi, posso finalmente inviare questo articolo.
Sì, 4 giorni fa, sono stato invitato da ByteDance, ho misurato questo modello Doubao PixelDance in anticipo, in quel momento, sono rimasto scioccato oltre ogni dire, sapete, come blogger, dopo aver misurato una cosa così presuntuosa, naturalmente voglio essere la prima volta a condividerlo, ma a causa dell'accordo di riservatezza, non posso solo dire una parola su di esso.
Quindi sappiate quanto sia stato difficile per me resistere in questi 4 giorni.
E ora tutto si sta ricomponendo. Finalmente posso parlare, cazzo.
Torniamo alle tre caratteristiche più importanti:
Movimenti complessi e continui dei personaggi, video con combinazione di più telecamere e controllo estremo della telecamera.

I personaggi possono compiere azioni continue


In passato, i video di AI avevano un punto molto fatale, cioè sembravano un'animazione PPT.


Che si tratti del video di Sora, o della passerella, o di Keling, eccetera, l'ampiezza del movimento, ma solo l'ampiezza dell'obiettivo è grande, non c'è mai un movimento complesso di persone.
Al culmine della giornata, giratevi, o fate una corsa veloce, o salutate, o abbracciate. Onestamente, solo l'abbraccio, non molti video di IA sono in grado di farlo.
E se la ragazza nella foto si togliesse gli occhiali da sole, si alzasse e camminasse verso la statua?


Tutti i video di AI, tutti morti in azione.
E questa volta il Doubao PixelDance lo ha fatto, letteralmente.


A parte qualche piccolo sfarfallio dell'orologio sulla mano, le proporzioni dei personaggi, i movimenti, gli arti, l'illuminazione, ecc. erano quasi impeccabili.
L'aspetto di un'opera teatrale, la performance d'azione delle persone, è la cosa più importante.
Ad esempio, in The King of Comedy, nell'ultima scena, lo Yin Tian Xiu di Stephen Chow, dopo aver gridato a Liu Piao Piao la classica battuta "Ti sosterrò", si siede nel taxi in partenza e piange molto tristemente, guarda per un po' i soldi e l'orologio che ha in mano, poi li mette nella borsa, tira fuori il libro "Autocoltivazione dell'attore", che considera la sua fede, e piange molto tristemente. Autocoltivazione dell'attore, e lo abbraccia tristemente al petto.
Questa performance è continua. È ciò che è continuo che ha tensione. È solo quando la si sente, quell'emozione dolorosa.

E ora, con l'IA, generare performance di personaggi in grado di compiere azioni continue non è più un discorso vuoto.


Si consideri un altro caso in cui un uomo beve un sorso di caffè, poi lo mette giù e una donna si avvicina da dietro.

Inoltre, le espressioni dei personaggi sono stupende, il vecchio sorride e ride, poi piange.


Anch'io voglio piangere, davvero.
Quando ho realizzato il trailer di Wandering Earth 3 lo scorso agosto, ho fantasticato su un milione di possibilità per l'IA di recitare i personaggi.
Ora, solo un anno dopo, Doubao mi ha aiutato a realizzare questo grande sogno.

Video con combinazione di più telecamere


La capacità di generare un video multi-camera con uno stile, una scena e dei personaggi coerenti a partire da una singola immagine + un prompt è qualcosa che ho visto solo nel promo di Sora.
È il famoso video di un lupo che ulula alla luna.


In realtà, ad essere onesti, questo video è stato, all'epoca, molto scioccante da guardare, ma in realtà è giusto guardarlo ora; lo stile, i personaggi e le scene sono così semplici che la coerenza è ben mantenuta, e non ci sono storie complicate o sottotrame.
Ma questo è tutto, ora, non c'è ancora nessun video AI che possa fare più riprese in un singolo video e avere ancora una perfetta coerenza.
Non fatemi nemmeno parlare della roba da studio LTX, che va bene per gli storyboard, ma per un lungometraggio? Lavatevi le chiappe, non parliamo poi delle scene, è difficile mantenere uniformi i personaggi nelle panoramiche, nei medi e nei primi piani. Ed è davvero brutto.
Ma ora, Doubao PixelDance ce l'ha fatta e la consistenza è semplicemente imbattibile, davvero.
È sufficiente un'immagine e un prompt.
Per esempio, questo.

Prompt: la morte con la falce si avvicina alla donna. Primo piano del volto della donna che urla di terrore.


Controllo estremo della telecamera


La modellazione di Doubao PixelDance è la più scandalosa e fantastica che abbia mai visto.
Ora il controllo dell'obiettivo video AI, ancora fondamentalmente focalizzato sulla combinazione di due funzioni, ma ad essere onesti, il limite superiore è davvero limitato, un sacco di grandi lenti e zoom, semplicemente non può essere fatto.
E Doubao PixelDance, l'effetto è davvero scandaloso.
Che vista a volo d'uccello zoomare e ruotare questo tipo di manipolazione di base non dico, la chiave è, in una parola, una varietà di 360 gradi intorno al soggetto di circondare, vista anteriore e posteriore zoom, panning, obiettivo seguendo, sollevando e abbassando l'obiettivo di qualsiasi cosa può essere.
L'effetto è sorprendentemente buono, ho visto per la prima volta, nel video AI, lo specchio di trasporto può essere così impressionante, così cool.
Guardare direttamente il caso.

Prompt: la donna sorride e abbassa la testa, la telecamera si allontana e un uomo bianco guarda la donna.


Lo zoom è estremamente naturale e fluido, invincibile, troppo invincibile.
E poi c'è questo, un drastico dribbling avvolgente a 360 gradi.
Prompt: stile bianco e nero, la telecamera gira intorno alla donna che indossa gli occhiali da sole, passando dal fianco alla parte anteriore, per poi concentrarsi su un primo piano del viso della donna.

Questa è una foto, e poi un Prompt, riesci a crederci? Questa gamma di movimento, questa stabilità, che la modellazione cazzo fuori l'oltraggio, sono davvero convinto.
Come si può lasciare che i fotografi giochino ancora, pazzi ah...

Scrivere alla fine


Sora un gigante futuribile, dal 2.16 ad oggi, in ritardo per vedere qualsiasi traccia.
E poi, 6.6, può Ling silenzioso, ufficialmente online, a nome della produzione di Cina Sora.
E oggi, 9.24, ByteDances ancora video AI, spinto a un livello completamente nuovo, è un video promozionale di Sora, non può vedere l'altezza.
Finora la Cina non ha bisogno di Sora, il modello Doubao è il cielo.
Doubao PixelDance non ha bisogno di una versione cinese del soprannome di Sora, Doubao PixelDance è Doubao PixelDance, è ormai il giorno dei video AI.
Anche a questo punto, l'AI video non è più un giocattolo, ma un vero e proprio, può entrare nel flusso di lavoro del cinema e della televisione, della pubblicità, dell'animazione, portando un po' di nuova immaginazione.
Questo colpo è stato sparato da noi.
Oggi questo modello Doubao PixelDance, darà la priorità alle imprese per aprire l'invito a testare, in pochi giorni sull'arca vulcano, per quanto riguarda quando sulla linea che sogno per il C-utente pieno aperto, potrebbe dover aspettare per un periodo di tempo, dopo tutto, è troppo nuovo, hanno detto che vogliono ancora ottimizzare ottimizzare la capacità del modello, stabile, poi direttamente sulla linea che sogno, per il pieno aperto.
In realtà, non c'è mai stato alcun miracolo, tutto è l'accumulo di molti anni di precipitazioni, tutto è come promesso.
Oggi posso anche gridare questa frase:

Altri video generati da PixelDance:

Finalmente: come fare domanda per PixelDance ORA?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

Per prima cosa registrate il vostro account:

账号登录-火山引擎 (volcengine.com)

Effettuare il login con il cellulare.

Richiedere l'accesso qui:

Ora hai fatto, plz in attesa di risposta