Úpravy videa na výšku Empowered by
Multimodální generativní priority

Tradiční metody úpravy videa na výšku mají často problémy s 3D efekty a časovou konzistencí a také fungují špatně, pokud jde o kvalitu a efektivitu vykreslování. K vyřešení těchto problémů povýší PortraitGen každý snímek portrétního videa do jednotného dynamického 3D Gaussova pole, které zajistí strukturální a časovou konzistenci snímek od snímku. PortraitGen je výkonná metoda úpravy portrétního videa, která umožňuje konzistentní a výraznou stylizaci s multimodálními podněty.
Kromě toho, PortraitGen vymyslel nový neurální gaussovský texturovací mechanismus, který umožňuje nejen komplexní stylistické úpravy, ale také umožňuje rychlost vykreslování přesahující 100 snímků za sekundu. PortraitGen kombinuje širokou škálu vstupů, které jsou vylepšeny znalostmi získanými z rozsáhlých 2D generativních modelů. Zavádí také pokyny pro podobnost výrazů a modul pro úpravu portrétu rozpoznávání obličeje, což účinně snižuje problémy, které mohou nastat při opakované aktualizaci datové sady. (Odkaz na konci článku)

01 Obsah titulků

PortraitGen posouvá 2D portrétní videa do 4D Gaussova pole pro multimodální úpravu portrétů za pouhých 30 minut. Upravený 3D portrét lze vykreslit rychlostí 100 snímků za sekundu. Koeficienty SMPL-X v monokulárním videu jsou nejprve sledovány a poté je pomocí mechanismu Neuro-Gaussovské textury generováno pole 3D Gaussových znaků.
Tato Neuro-Gaussova data se dále zpracovávají za účelem vykreslení obrazu portrétu. PortraitGen také využívá strategii iterativní aktualizace datové sady pro úpravu portrétu a navrhuje modul pro úpravu rozpoznávání obličeje pro zvýšení kvality výrazů a zachování personalizované struktury obličeje.

02 Praktické použití

Řešení PortraitGen je jednotný rámec pro úpravu videa na výšku. K vytvoření 3D konzistentních a časově koherentních portrétních videí lze použít jakýkoli model pro úpravu obrázků, který zachovává strukturu.
Textově řízené úpravy: InstructPix2Pix se používá jako 2D model pro úpravy. Jeho UNet vyžaduje tři vstupy: vstupní RGB obrázek, textový příkaz a latentní šum. Přidá do vykresleného obrazu nějaký šum a upraví jej na základě vstupního zdrojového obrazu a pokynů.

Úprava řízená obrazem: zaměřuje se na dva typy úprav založených na obrazových vodítkách. Jedním je extrahování globálního stylu referenčního obrázku a druhým je přizpůsobení obrázku umístěním objektů na konkrétní místa. Tyto metody se experimentálně používají pro migraci stylu a virtuální lícování. Styl referenčního obrázku byl migrován do rámců datové sady pomocí algoritmu migrace neurálního stylu a oblečení subjektu bylo změněno pomocí AnyDoor.

Relighting: použití IC-Light pro manipulaci s osvětlením video snímků. Vzhledem k textovému popisu jako světelné podmínky, metoda PortraitGen harmonicky upravuje osvětlení portrétního videa

03 Experimenty s kontrastem a ablací

Metoda PortraitGen je srovnávána s nejmodernějšími metodami úpravy videa včetně TokenFlow, Rerender A Video, CoDeF a AnyV2V. metoda PortraitGen výrazně předčí ostatní metody, pokud jde o uchování just-in-time, uchování identity a časovou konzistenci.
Doba trvání 00:47
Inspirován neurální texturou navrženou v 'Delayed Neural Rendering', PortraitGen navrhuje neurální Gaussovu texturu. Tento přístup ukládá naučitelné vlastnosti pro každý Gaussian místo ukládání sférických harmonických koeficientů. Dále je použit 2D neurální renderer pro převod zpracovaných map prvků na signály RGB. Tato metoda poskytuje bohatší informace než sférické harmonické koeficienty a umožňuje lepší spojení zpracovaných prvků, což usnadňuje úpravy složitých stylů, jako je Lego a pixel art.

Pokud při úpravách obrázku horní části těla zabírá obličej malou plochu, nemusí být úpravy modelu dobře přizpůsobeny pozici hlavy a struktuře obličeje. Úpravy portrétu podle Facial Awareness (FA) mohou zlepšit výsledky provedením dvou úprav pro zvýšení zaměření na strukturu obličeje.

Mapováním vykresleného obrazu a vstupního zdrojového obrazu do latentního výrazového prostoru EMOCA a optimalizací podobnosti výrazů můžeme zajistit, že výrazy zůstanou přirozené a konzistentní s původními snímky videa.

Technologie stojící za PortraitGen

Reference

více o PotraitGen najdete zde: https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

Kód zde na githubu

Podobné příspěvky