ByteDance New Releases AI Video Model - Goodbye Sora, Your Time Has Passed.

Le lancement du Volcano Engine de ByteDance vient de s'achever.
Je suis un peu trop excité en ce moment.
Même si le lancement est terminé, j'ai le sentiment qu'un tout nouveau départ pour perturber l'industrie est, en ce moment, officiellement arrivé.


ByteDance a officiellement lancé ses deux nouveaux modèles vidéo d'IA :


Génération de vidéos Doubao - Modèle PixelDance et modèle Seaweed.
Je parlerai plus en détail du modèle Seaweed la prochaine fois. Cette fois-ci, je veux parler de ce modèle Doubao PixelDance parce qu'il est tellement génial, tellement génial, que je l'ai littéralement regardé avec stupéfaction pendant tout ce temps.

Au moment où ils ont officiellement annoncé cette chose, il y a eu tellement d'applaudissements que j'ai eu l'impression que j'allais faire exploser le toit de la maison à partir de l'écran.
Vraiment, si je devais résumer ce modèle Doubao PixelDance, cela tiendrait en trois mots :
Mouvement continu et complexe des personnages, vidéo combinée à plusieurs caméras et contrôle extrême de la caméra.
Cela semble un peu difficile à comprendre, n'est-ce pas ? Pas de problème, je vais vous expliquer en détail.

J'ai d'abord placé quelques caisses, pour sentir le choc de cette chose :

En réalité, l'industrie du cinéma et de la télévision ne peut presque pas utiliser l'IA, car la performance des personnages est trop mauvaise, la cohérence entre les scènes et les personnages est trop faible, et le fonctionnement du miroir n'est pas bon.

Aujourd'hui, ByteDance est intervenu et a porté la vidéo d'IA à un tout autre niveau.


La singularité de la perturbation de l'industrie est officiellement arrivée aujourd'hui, à l'occasion de ce lancement.
Et moi, après avoir retenu mon souffle pendant 4 jours entiers, je peux enfin envoyer cet article.
Oui, il y a 4 jours, j'ai été invité par ByteDance, j'ai mesuré ce modèle Doubao PixelDance à l'avance, à ce moment-là, j'ai été choqué au-delà des mots, vous savez, en tant que blogueur, après avoir mesuré une chose si arrogante, naturellement je veux être le premier à le partager, mais à cause de l'accord de confidentialité, je ne peux pas en dire un mot.
Vous savez donc à quel point il m'a été difficile de tenir pendant ces 4 jours.
Et maintenant, tout se met en place. Je peux enfin parler, putain.
Revenons aux trois caractéristiques les plus importantes :
Mouvements continus complexes des personnages, vidéos combinées à plusieurs caméras et contrôle extrême de la caméra.

Les personnages peuvent effectuer des actions continues


Dans le passé, les vidéos d'IA avaient un point fatal, c'est-à-dire qu'elles ressemblaient à une animation PPT.


Qu'il s'agisse de la vidéo de Sora, de la piste, de Keling, etc., l'amplitude du mouvement, mais seulement l'amplitude de l'objectif, est grande, il n'y a jamais de mouvement complexe de personnes.
En fin de journée, on fait demi-tour, on court un peu, on fait un signe de la main ou on se serre dans les bras. Honnêtement, rien que l'étreinte, il n'y a pas beaucoup de vidéos d'IA qui peuvent faire ça.
Et si la fille de la photo enlevait ses lunettes de soleil, se levait et se dirigeait vers la statue ?


Toutes les vidéos d'IA, toutes les morts en action.
Et cette fois, le Doubao PixelDance l'a fait, littéralement.


Hormis un léger scintillement de la montre sur la main, les proportions, les mouvements, les membres, l'éclairage, etc. des personnages étaient presque parfaits.
Une pièce de théâtre est belle, la performance de l'action des gens, c'est le plus important.
Par exemple, dans The King of Comedy, dans la dernière scène, le Yin Tian Xiu de Stephen Chow, après avoir crié la réplique classique "Je te soutiendrai" à Liu Piao Piao, s'assoit dans le taxi qui part et pleure très tristement, regarde l'argent et la montre dans sa main pendant un moment, puis les met dans son sac, et sort le livre "Self-Cultivation of Actors", qu'elle considère comme sa foi, et pleure très tristement. Elle prend le livre "Autoculture de l'acteur" et le serre tristement contre sa poitrine.
Cette performance est continue. C'est ce qui est continu qui a de la tension. C'est seulement quand on peut la sentir, cette émotion douloureuse.

Aujourd'hui, grâce à l'IA, générer des performances de personnages capables de réaliser des actions continues n'est plus un vain mot.


Prenons un autre cas : un homme boit une gorgée de café, la repose et une femme arrive par derrière.

De plus, les expressions des personnages sont géniales, le vieil homme sourit et rit, puis pleure.


J'ai aussi envie de pleurer, vraiment.
Lorsque j'ai réalisé la bande-annonce de Wandering Earth 3 en août dernier, j'ai imaginé un million de possibilités pour l'IA de jouer le rôle d'un personnage.
Aujourd'hui, un an plus tard, Doubao m'a aidé à réaliser mon plus grand rêve.

Vidéo combinée à plusieurs caméras


La capacité à générer une vidéo multi-caméras avec un style, une scène et des personnages cohérents à partir d'une seule image + Prompt est quelque chose que je n'ai vu que dans la promotion de Sora.
C'est la célèbre vidéo d'un loup hurlant à la lune.


En fait, pour être honnête, cette vidéo était, à l'époque, très choquante à regarder, mais on peut la regarder maintenant ; le style, les personnages et les scènes sont si simples que la cohérence est bien maintenue, et il n'y a pas d'histoire compliquée ou d'intrigues secondaires.
Mais c'est tout, il n'existe toujours pas de vidéo d'IA capable de réaliser plusieurs prises de vue dans une même vidéo et d'avoir une cohérence parfaite.
Ne me parlez même pas du studio LTX, c'est bien pour des storyboards, mais pour un long métrage ? Lavez votre cul, ne parlez même pas des scènes, c'est difficile d'uniformiser les personnages en panoramique, en moyen et en gros plan. Et c'est vraiment moche.
Mais aujourd'hui, Doubao PixelDance l'a fait, et la cohérence est tout simplement imbattable, vraiment.
Il suffit d'une image et d'une invite.
Par exemple, celle-ci.

Prompt : la mort, armée d'une faux, s'approche de la femme. Gros plan sur le visage de la femme qui hurle de terreur.


Contrôle extrême de la caméra


La modélisation Doubao PixelDance est la plus extravagante et la plus impressionnante que j'aie jamais vue.
Aujourd'hui, le contrôle de l'objectif vidéo par l'IA est encore essentiellement axé sur la combinaison des deux fonctions caméra + pinceau de mouvement, mais pour être honnête, la limite supérieure est vraiment limitée, un grand nombre de grands objectifs et de zooms ne peuvent tout simplement pas être réalisés.
Et Doubao PixelDance, l'effet est vraiment scandaleux.
L'essentiel est, en un mot, une variété de 360 degrés autour du sujet à entourer, zoom avant et arrière, panoramique, suivi de la cible, levage et abaissement de l'objectif de tout ce qui peut l'être.
L'effet est étonnamment bon, j'ai vu pour la première fois, dans la vidéo de l'IA, que le miroir de transport peut être si impressionnant, si cool.
Regarder directement le dossier.

Proposition : la femme sourit et baisse la tête, la caméra s'éloigne et un homme blanc regarde la femme.


Le zoom est extrêmement naturel et fluide, invincible, trop invincible.
Et puis il y a celui-ci, un dribble enveloppant à 360 degrés.
Invitation : en noir et blanc, la caméra tourne autour de la femme portant des lunettes de soleil, passe de son côté à l'avant et se concentre finalement sur un gros plan du visage de la femme.

Il s'agit d'une photo, puis d'un message, vous y croyez ? Cette amplitude de mouvement, cette stabilité, que la putain de modélisation de l'outrageux, je suis vraiment convaincu.
Comment pouvez-vous laisser les photographes continuer à jouer, ah les fous...

Écrire à la fin


Sora un futur géant, du 2.16 à aujourd'hui, tarde à en voir la trace.
Et puis, 6,6, peut Ling silencieux, officiellement en ligne, au nom de la production de China Sora.
Et aujourd'hui, 9.24, ByteDances a de nouveau une vidéo AI, poussée à un tout autre niveau, est une dans la vidéo promotionnelle de Sora, ne peut pas voir la hauteur.
Jusqu'à présent, la Chine n'a pas besoin de Sora, le modèle Doubao est le meilleur.
Doubao PixelDance n'a pas besoin d'une version chinoise du surnom de Sora, Doubao PixelDance est Doubao PixelDance, c'est l'époque des vidéos d'intelligence artificielle.
À ce stade, l'IA vidéo n'est plus un jouet, mais une réalité, qui peut entrer dans le flux de travail du cinéma et de la télévision, de la publicité et de l'animation, et susciter une nouvelle imagination.
C'est nous qui avons tiré ce coup de feu.
Aujourd'hui, ce modèle Doubao PixelDance, donnera la priorité à l'entreprise pour ouvrir l'invitation à tester, dans quelques jours sur l'arche du volcan, quant à quand sur la ligne qui rêve à l'utilisateur C pleinement ouvert, peut avoir à attendre une période de temps, après tout, est trop nouveau, ils ont dit qu'ils veulent encore optimiser optimiser la capacité du modèle, stable, puis directement sur la ligne qui rêve, à l'ouverture complète.
En réalité, il n'y a jamais eu de miracle, tout est l'accumulation de nombreuses années de précipitations, tout est comme promis.
Aujourd'hui, je peux aussi crier cette phrase :

Autre vidéo générée par PixelDance :

Enfin : Comment postuler pour PixelDance NOW ?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

Enregistrez d'abord votre compte :

账号登录-火山引擎 (volcengine.com)

Connectez-vous avec votre téléphone portable.

Demandez l'accès ici :

Maintenant que vous l'avez fait, attendez la réponse.