Editare video portret împuternicită de
Prioruri generative multimodale

Metodele tradiționale de editare video portret au adesea probleme cu efectele 3D și consistența temporală și, de asemenea, au rezultate slabe în ceea ce privește calitatea redării și eficiența. Pentru a rezolva aceste probleme, PortraitGen ridică fiecare cadru al unui videoclip portret într-un câmp dinamic 3D Gaussian unificat, care asigură consistența structurală și temporală de la cadru la cadru.
În plus, PortraitGen a conceput un nou mecanism de texturare neuronală Gaussian care nu numai că permite editarea stilistică complexă, dar permite și viteze de redare de peste 100 de cadre pe secundă. De asemenea, introduce îndrumări privind similaritatea expresiei și un modul de editare portret cu recunoaștere facială, reducând eficient problemele care pot apărea la actualizarea iterativă a unui set de date. (Link în partea de jos a articolului)

01 Subtitrare Conținut

PortraitGen transformă videoclipurile portret 2D într-un câmp gaussian 4D pentru editarea portretelor multimodală în doar 30 de minute. Portretul 3D editat poate fi redat la 100 de cadre pe secundă. Coeficienții SMPL-X din videoclipul monocular sunt mai întâi urmăriți, iar apoi este generat un câmp de caracteristici gaussian 3D folosind un mecanism de textură neuro-gauss.
Aceste date neuro-gaussiene sunt procesate în continuare pentru a reda imaginea portret. PortraitGen folosește, de asemenea, o strategie iterativă de actualizare a setului de date pentru editarea portretelor și propune un modul de editare de recunoaștere facială pentru a îmbunătăți calitatea expresiilor și a păstra structura facială personalizată.

02 Utilizări practice

Soluția PortraitGen este un cadru unificat pentru editarea video portret. Orice model de editare a imaginilor care păstrează structura poate fi folosit pentru a compune videoclipuri portret coerente 3D și coerente temporal.
Editare bazată pe text: InstructPix2Pix este folosit ca model de editare 2D. UNet-ul său necesită trei intrări: o imagine RGB de intrare, o comandă text și un zgomot latent. Adaugă ceva zgomot imaginii randate și o editează pe baza imaginii sursei de intrare și a instrucțiunilor.

Editare bazată pe imagine: se concentrează pe două tipuri de editare bazate pe indicii de imagine. Una este de a extrage stilul global al unei imagini de referință, iar cealaltă este de a personaliza imaginea prin plasarea obiectelor în locații specifice. Aceste metode sunt utilizate experimental pentru migrarea stilului și potrivirea virtuală. Stilul imaginii de referință a fost migrat către cadrele setului de date folosind algoritmul Neural Style Migration și hainele subiectului au fost schimbate folosind AnyDoor.

Reiluminare: folosind IC-Light pentru a manipula iluminarea cadrelor video. Având în vedere o descriere text ca condiție de iluminare, metoda PortraitGen ajustează armonios iluminarea videoclipului portret

03 Experimente de contrast și ablație

Metoda PortraitGen este comparată cu metodele de editare video de ultimă generație, inclusiv TokenFlow, Rerender A Video, CoDeF și AnyV2V. metoda PortraitGen depășește semnificativ celelalte metode în ceea ce privește conservarea just-in-time, păstrarea identității și consistența temporală.
Durata 00:47
Inspirat de textura neuronală propusă în „Redarea neuronală întârziată”, PortraitGen propune o textură neuronală Gaussiană. Această abordare stochează caracteristici care pot fi învățate pentru fiecare gaussian în loc să stocheze coeficienții armonici sferici. În continuare, se folosește un randament neuronal 2D pentru a converti hărțile de caracteristici procesate în semnale RGB. Această metodă oferă informații mai bogate decât coeficienții armonici sferici și permite o mai bună fuziune a caracteristicilor procesate, facilitând editarea stilurilor complexe precum Lego și pixel art.

Când editați o imagine a corpului superior, dacă fața ocupă o zonă mică, este posibil ca editarea modelului să nu fie bine adaptată la poziția capului și la structura feței. Editarea portretului pentru conștientizarea feței (FA) poate îmbunătăți rezultatele prin efectuarea a două editări pentru a crește accentul pe structura feței.

Mapând imaginea redată și imaginea sursă de intrare în spațiul de expresie latent al EMOCA și optimizând asemănarea expresiilor, ne putem asigura că expresiile rămân naturale și consecvente cu cadrele video originale.

Tehnologia din spatele PortraitGen

Referință

puteți găsi mai multe despre PotraitGen aici: https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

Cod aici în github

Postări similare