Uhariri wa Video Wima Unawezeshwa na
Multimodal Generative Priors

Mbinu za kawaida za kuhariri video za picha wima mara nyingi huwa na matatizo ya athari za 3D na uthabiti wa muda, na pia hufanya vibaya katika suala la uwasilishaji wa ubora na ufanisi. Ili kushughulikia masuala haya, PortraitGen huinua kila fremu ya video wima hadi uga unaobadilika wa 3D wa Gaussian, ambao huhakikisha uthabiti wa kimuundo na wa muda kutoka fremu hadi fremu.
Zaidi ya hayo, PortraitGen imeunda utaratibu mpya wa maandishi wa neural wa Gaussian ambao hauruhusu tu uhariri changamano wa kimtindo, lakini pia huwezesha kasi ya uwasilishaji inayozidi fremu 100 kwa sekunde. Pia huleta mwongozo wa ulinganifu wa usemi na moduli ya uhariri wa picha ya utambuzi wa uso, na hivyo kupunguza kwa ufanisi matatizo yanayoweza kutokea wakati wa kusasisha mkusanyiko wa data mara kwa mara. (Kiungo chini ya makala)
01 Maudhui ya Manukuu
PortraitGen huinua video za picha wima ya 2D hadi uga wa 4D wa Gaussian kwa uhariri wa picha za aina nyingi ndani ya dakika 30 pekee. Picha ya 3D iliyohaririwa inaweza kutolewa kwa fremu 100 kwa sekunde. Vigawo vya SMPL-X katika video ya monocular hufuatiliwa kwanza, kisha sehemu ya kipengele cha 3D Gaussian inatolewa kwa kutumia utaratibu wa muundo wa Neuro-Gaussian.
Data hii ya Neuro-Gaussian inachakatwa zaidi ili kutoa taswira ya picha.PortraitGen pia hutumia mkakati wa kusasisha mkusanyiko wa data kwa ajili ya kuhariri picha na inapendekeza moduli ya uhariri ya utambuzi wa uso ili kuimarisha ubora wa vielezi na kuhifadhi muundo wa uso uliobinafsishwa.
02 Matumizi ya Vitendo
Suluhisho la PortraitGen ni mfumo uliounganishwa wa uhariri wa video wima. Muundo wowote wa uhariri wa picha ambao huhifadhi muundo unaweza kutumika kutunga video za picha za 3D thabiti na zinazoshikamana kwa muda.
Uhariri unaoendeshwa na maandishi: InstructPix2Pix inatumika kama kielelezo cha uhariri cha 2D. UNet yake inahitaji pembejeo tatu: picha ya pembejeo ya RGB, amri ya maandishi na sauti iliyofichwa. Huongeza kelele kwa picha iliyotolewa na kuihariri kulingana na picha na maagizo ya chanzo cha ingizo.
Uhariri unaoendeshwa na picha: huzingatia aina mbili za uhariri kulingana na viashiria vya picha. Moja ni kutoa mtindo wa kimataifa wa picha ya marejeleo na nyingine ni kubinafsisha picha kwa kuweka vitu katika maeneo mahususi. Njia hizi hutumiwa kwa majaribio kwa uhamiaji wa mtindo na kufaa kwa mtandao. Mtindo wa picha ya marejeleo ulihamishwa hadi kwa fremu za mkusanyiko wa data kwa kutumia algoriti ya Uhamishaji wa Mtindo wa Neural na nguo za mhusika zilibadilishwa kwa kutumia AnyDoor.
Kuangaza upya: kwa kutumia IC-Mwanga ili kudhibiti uangazaji wa fremu za video. Kwa kuzingatia maelezo ya maandishi kama hali ya mwanga, mbinu ya PortraitGen hurekebisha mwangaza wa video ya picha kwa usawa.
03 Majaribio ya Tofauti na Utoaji
Mbinu ya PortraitGen inalinganishwa na mbinu za kisasa za kuhariri video ikijumuisha TokenFlow, Rerender A Video, CoDeF, na AnyV2V. mbinu ya PortraitGen inashinda kwa kiasi kikubwa mbinu zingine katika suala la uhifadhi wa wakati, uhifadhi wa utambulisho, na uthabiti wa muda.
Muda wa muda 00:47
Imechochewa na unamu wa neva unaopendekezwa katika 'Utoaji wa Neural Uliochelewa', PortraitGen inapendekeza umbile la Gaussian la neva. Mbinu hii huhifadhi vipengele vinavyoweza kujifunzia kwa kila Gaussia badala ya kuhifadhi mgawo wa ulinganifu wa duara. Kisha, kionyeshi cha neural cha 2D kinatumika kubadilisha ramani za vipengele vilivyochakatwa kuwa mawimbi ya RGB. Mbinu hii hutoa maelezo bora zaidi kuliko vigawo vya ulinganifu wa duara na huruhusu muunganisho bora wa vipengele vilivyochakatwa, na kuifanya iwe rahisi kuhariri mitindo changamano kama vile Lego na sanaa ya pikseli.
Wakati wa kuhariri picha ya juu ya mwili, ikiwa uso unachukua eneo ndogo, uhariri wa mfano hauwezi kubadilishwa vizuri kwa kichwa cha kichwa na muundo wa uso. Uhariri wa Picha ya Ufahamu wa Usoni (FA) unaweza kuboresha matokeo kwa kufanya uhariri mara mbili ili kuongeza umakini kwenye muundo wa uso.
Kwa kuchora picha iliyoonyeshwa na picha ya chanzo cha ingizo katika nafasi fiche ya usemi ya EMOCA na kuboresha ulinganifu wa vielezi, tunaweza kuhakikisha kuwa vielezi vinasalia kuwa asili na kuendana na fremu asili za video.
Teknolojia nyuma ya PortraitGen

Marejeleo
unaweza kupata zaidi kuhusu PotraitGen hapa: https://ustc3dv.github.io/PortraitGen/