Table des matières

Édition vidéo de portraits avec l'aide de
Les amorces génératives multimodales

Les méthodes traditionnelles d'édition de vidéos de portraits présentent souvent des problèmes d'effets 3D et de cohérence temporelle, ainsi que des performances médiocres en termes de qualité de rendu et d'efficacité. Pour résoudre ces problèmes, PortraitGen élève chaque image d'une vidéo de portrait dans un champ gaussien dynamique 3D unifié, ce qui garantit la cohérence structurelle et temporelle d'une image à l'autre. PortraitGen est une puissante méthode d'édition de vidéo de portrait qui permet une stylisation cohérente et expressive avec des indices multimodaux.
En outre, PortraitGen a conçu un nouveau mécanisme neuronal de texturation gaussienne qui permet non seulement une édition stylistique complexe, mais aussi des vitesses de rendu supérieures à 100 images par seconde.PortraitGen combine un large éventail d'entrées qui sont améliorées par les connaissances distillées à partir de modèles génératifs 2D à grande échelle. PortraitGen combine un large éventail d'entrées enrichies par des connaissances distillées à partir de modèles génératifs 2D à grande échelle. Il introduit également des conseils de similarité d'expression et un module d'édition de portrait par reconnaissance faciale, réduisant ainsi efficacement les problèmes qui peuvent survenir lors de la mise à jour itérative d'un ensemble de données. (Lien au bas de l'article)

01 Contenu de la légende

PortraitGen transforme les vidéos de portraits 2D en un champ gaussien 4D pour l'édition de portraits multimodaux en seulement 30 minutes. Le portrait 3D édité peut être rendu à 100 images par seconde. Les coefficients SMPL-X de la vidéo monoculaire sont d'abord suivis, puis un champ gaussien 3D est généré à l'aide d'un mécanisme de texture neuro-gaussien.
PortraitGen utilise également une stratégie itérative de mise à jour des données pour l'édition des portraits et propose un module d'édition de la reconnaissance faciale pour améliorer la qualité des expressions et préserver la structure faciale personnalisée.

02 Utilisations pratiques

La solution PortraitGen est un cadre unifié pour l'édition de vidéos de portraits. Tout modèle d'édition d'images qui préserve la structure peut être utilisé pour composer des portraits vidéo cohérents en 3D et dans le temps.
Edition pilotée par le texte : InstructPix2Pix est utilisé comme modèle d'édition 2D. Son UNet nécessite trois entrées : une image RVB d'entrée, une commande de texte et un bruit latent. Il ajoute du bruit à l'image rendue et la modifie en fonction de l'image source et des instructions.

Édition axée sur l'image : se concentre sur deux types d'édition basés sur des indices d'image. L'un consiste à extraire le style global d'une image de référence et l'autre à personnaliser l'image en plaçant des objets à des endroits spécifiques. Ces méthodes sont utilisées expérimentalement pour la migration de style et l'ajustement virtuel. Le style de l'image de référence a été transféré vers les images de l'ensemble de données à l'aide de l'algorithme Neural Style Migration et les vêtements du sujet ont été changés à l'aide de AnyDoor.

Relighting : utilisation de IC-Light pour manipuler l'éclairage des images vidéo. La méthode PortraitGen ajuste harmonieusement l'éclairage de la vidéo du portrait à partir d'une description textuelle.

03 Expériences de contraste et d'ablation

La méthode PortraitGen est comparée à des méthodes d'édition vidéo de pointe, notamment TokenFlow, Rerender A Video, CoDeF et AnyV2V. La méthode PortraitGen est nettement plus performante que les autres méthodes en termes de préservation juste à temps, de préservation de l'identité et de cohérence temporelle.
La durée 00:47
Inspiré par la texture neuronale proposée dans "Delayed Neural Rendering", PortraitGen propose une texture gaussienne neuronale. Cette approche stocke des caractéristiques pouvant être apprises pour chaque gaussienne au lieu de stocker des coefficients harmoniques sphériques. Ensuite, un moteur de rendu neuronal 2D est utilisé pour convertir les cartes de caractéristiques traitées en signaux RVB. Cette méthode fournit des informations plus riches que les coefficients harmoniques sphériques et permet une meilleure fusion des caractéristiques traitées, ce qui facilite l'édition de styles complexes tels que le Lego et le pixel art.

Lors de l'édition d'une image du haut du corps, si le visage occupe une petite surface, l'édition du modèle peut ne pas être bien adaptée à la pose de la tête et à la structure du visage. L'édition de portraits avec prise de conscience du visage (FA) peut améliorer les résultats en effectuant deux éditions afin de mettre davantage l'accent sur la structure du visage.

En mappant l'image rendue et l'image source d'entrée dans l'espace d'expression latente d'EMOCA et en optimisant la similarité des expressions, nous pouvons nous assurer que les expressions restent naturelles et cohérentes avec les images vidéo d'origine.

La technologie derrière PortraitGen

Référence

Pour en savoir plus sur PotraitGen, cliquez ici ：https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

Code ici dans github

A lire également

Non classé

Une photo, un blockbuster : la technologie de génération multimodale MiniMax (Hailuo AI) innove à nouveau

Présentation de Hailuo AI Tout le monde rêve de faire du cinéma, qu'il s'agisse d'endosser différents rôles pour découvrir la vie à l'écran, de devenir un réalisateur qui cadre chaque plan ou un scénariste qui crée des possibilités infinies dans des univers parallèles. Hailuo AI agit comme une machine à rêves, offrant à chacun une expérience cinématographique. Au début de la nouvelle année,…

Non classé

Top 10 des meilleurs générateurs d'images Flux AI

Qu'est-ce que le flux ? Le générateur d'images Flux AI est un modèle sophistiqué de génération de texte en image développé par Black Forest Labs. C'est une équipe formidable, ils ont de nombreuses nouvelles perspectives sur le générateur d'images Flux AI. Les utilisateurs peuvent utiliser cet outil innovant pour créer des images de haute qualité à partir de descriptions textuelles, en exploitant des techniques avancées d'intelligence artificielle. Tout le monde peut…

Non classé

TransPixar : un système révolutionnaire de génération de vidéos transparentes alimenté par l'IA

TransPixar : transformer la création de contenu numérique TransPixar représente une avancée révolutionnaire dans la génération de vidéos pilotée par l'IA, spécialement conçue pour révolutionner la manière dont le contenu vidéo transparent est créé. En tant que modèle génératif de pointe, TransPixar est spécialisé dans l'intégration de canaux alpha pour la transparence, permettant une génération de vidéos RGBA transparente qui répond aux exigences exigeantes de la production d'effets visuels modernes. Technologie de base de TransPixar…

Non classé

HunyuanVideo : pionnier de la nouvelle ère de la génération de vidéos open source

Avec l'évolution rapide de la technologie de l'intelligence artificielle, la génération de vidéos est devenue un domaine d'intérêt majeur. HunyuanVideo, un modèle de génération de vidéos à usage général chinois de haute qualité lancé par Tencent, se distingue aujourd'hui comme un leader parmi les modèles de base de génération de vidéos open source, grâce à ses performances exceptionnelles et à sa nature open source. 1. Introduction à HunyuanVideo Le principal…

Non classé

Quel est le meilleur système d'échange de visages par IA ? PuLID vs InstantID vs FaceID

InstantID GAGNE au premier coup d'oeil prompt : marché animé rempli d'étals colorés. vêtue d'une tenue décontractée avec une touche bohème ,cheveux roux bouclés ornés d'un bandeau ,arrière-plan animé avec des gens et des marchandises exotiques ,tenant un panier de fruits LE tableau de comparaison de PuLID vs InstantID vs FaceID MAIS PulID Flux est le meilleur ! parce que...

Non classé

DeepSeek R1 : un modèle d'IA open source révolutionnaire qui rivalise avec OpenAI

DeepSeek a dévoilé son très attendu modèle DeepSeek R1, un développement révolutionnaire qui remodèle le paysage de l'intelligence artificielle. Cette centrale d'IA open source est positionnée pour rivaliser avec les offres d'OpenAI, en apportant des capacités avancées en mathématiques, en programmation et en raisonnement logique à un public plus large. Plongeons dans les détails de ce qui fait de DeepSeek R1 un modèle potentiellement révolutionnaire dans le domaine de l'intelligence artificielle.

Édition vidéo de portraits avec l'aide deLes amorces génératives multimodales

01 Contenu de la légende

02 Utilisations pratiques

03 Expériences de contraste et d'ablation

La technologie derrière PortraitGen

Référence

A lire également

Édition vidéo de portraits avec l'aide de
Les amorces génératives multimodales