Jedwali la Yaliyomo

Uhariri wa Video Wima Unawezeshwa na
Multimodal Generative Priors

Mbinu za kawaida za kuhariri video za picha wima mara nyingi huwa na matatizo ya athari za 3D na uthabiti wa muda, na pia hufanya vibaya katika suala la uwasilishaji wa ubora na ufanisi. Ili kushughulikia masuala haya, PortraitGen huinua kila fremu ya video wima hadi uga unaobadilika wa 3D wa Gaussian, ambao huhakikisha uthabiti wa kimuundo na wa muda kutoka fremu hadi fremu.
Zaidi ya hayo, PortraitGen imeunda utaratibu mpya wa maandishi wa neural wa Gaussian ambao hauruhusu tu uhariri changamano wa kimtindo, lakini pia huwezesha kasi ya uwasilishaji inayozidi fremu 100 kwa sekunde. Pia huleta mwongozo wa ulinganifu wa usemi na moduli ya uhariri wa picha ya utambuzi wa uso, na hivyo kupunguza kwa ufanisi matatizo yanayoweza kutokea wakati wa kusasisha mkusanyiko wa data mara kwa mara. (Kiungo chini ya makala)

01 Maudhui ya Manukuu

PortraitGen huinua video za picha wima ya 2D hadi uga wa 4D wa Gaussian kwa uhariri wa picha za aina nyingi ndani ya dakika 30 pekee. Picha ya 3D iliyohaririwa inaweza kutolewa kwa fremu 100 kwa sekunde. Vigawo vya SMPL-X katika video ya monocular hufuatiliwa kwanza, kisha sehemu ya kipengele cha 3D Gaussian inatolewa kwa kutumia utaratibu wa muundo wa Neuro-Gaussian.
Data hii ya Neuro-Gaussian inachakatwa zaidi ili kutoa taswira ya picha.PortraitGen pia hutumia mkakati wa kusasisha mkusanyiko wa data kwa ajili ya kuhariri picha na inapendekeza moduli ya uhariri ya utambuzi wa uso ili kuimarisha ubora wa vielezi na kuhifadhi muundo wa uso uliobinafsishwa.

02 Matumizi ya Vitendo

Suluhisho la PortraitGen ni mfumo uliounganishwa wa uhariri wa video wima. Muundo wowote wa uhariri wa picha ambao huhifadhi muundo unaweza kutumika kutunga video za picha za 3D thabiti na zinazoshikamana kwa muda.
Uhariri unaoendeshwa na maandishi: InstructPix2Pix inatumika kama kielelezo cha uhariri cha 2D. UNet yake inahitaji pembejeo tatu: picha ya pembejeo ya RGB, amri ya maandishi na sauti iliyofichwa. Huongeza kelele kwa picha iliyotolewa na kuihariri kulingana na picha na maagizo ya chanzo cha ingizo.

Uhariri unaoendeshwa na picha: huzingatia aina mbili za uhariri kulingana na viashiria vya picha. Moja ni kutoa mtindo wa kimataifa wa picha ya marejeleo na nyingine ni kubinafsisha picha kwa kuweka vitu katika maeneo mahususi. Njia hizi hutumiwa kwa majaribio kwa uhamiaji wa mtindo na kufaa kwa mtandao. Mtindo wa picha ya marejeleo ulihamishwa hadi kwa fremu za mkusanyiko wa data kwa kutumia algoriti ya Uhamishaji wa Mtindo wa Neural na nguo za mhusika zilibadilishwa kwa kutumia AnyDoor.

Kuangaza upya: kwa kutumia IC-Mwanga ili kudhibiti uangazaji wa fremu za video. Kwa kuzingatia maelezo ya maandishi kama hali ya mwanga, mbinu ya PortraitGen hurekebisha mwangaza wa video ya picha kwa usawa.

03 Majaribio ya Tofauti na Utoaji

Mbinu ya PortraitGen inalinganishwa na mbinu za kisasa za kuhariri video ikijumuisha TokenFlow, Rerender A Video, CoDeF, na AnyV2V. mbinu ya PortraitGen inashinda kwa kiasi kikubwa mbinu zingine katika suala la uhifadhi wa wakati, uhifadhi wa utambulisho, na uthabiti wa muda.
Muda wa muda 00:47
Imechochewa na unamu wa neva unaopendekezwa katika 'Utoaji wa Neural Uliochelewa', PortraitGen inapendekeza umbile la Gaussian la neva. Mbinu hii huhifadhi vipengele vinavyoweza kujifunzia kwa kila Gaussia badala ya kuhifadhi mgawo wa ulinganifu wa duara. Kisha, kionyeshi cha neural cha 2D kinatumika kubadilisha ramani za vipengele vilivyochakatwa kuwa mawimbi ya RGB. Mbinu hii hutoa maelezo bora zaidi kuliko vigawo vya ulinganifu wa duara na huruhusu muunganisho bora wa vipengele vilivyochakatwa, na kuifanya iwe rahisi kuhariri mitindo changamano kama vile Lego na sanaa ya pikseli.

Wakati wa kuhariri picha ya juu ya mwili, ikiwa uso unachukua eneo ndogo, uhariri wa mfano hauwezi kubadilishwa vizuri kwa kichwa cha kichwa na muundo wa uso. Uhariri wa Picha ya Ufahamu wa Usoni (FA) unaweza kuboresha matokeo kwa kufanya uhariri mara mbili ili kuongeza umakini kwenye muundo wa uso.

Kwa kuchora picha iliyoonyeshwa na picha ya chanzo cha ingizo katika nafasi fiche ya usemi ya EMOCA na kuboresha ulinganifu wa vielezi, tunaweza kuhakikisha kuwa vielezi vinasalia kuwa asili na kuendana na fremu asili za video.

Teknolojia nyuma ya PortraitGen

Marejeleo

unaweza kupata zaidi kuhusu PotraitGen hapa: https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

Nambari hapa kwenye github

Machapisho Yanayofanana

Isiyowekwa katika kundi

Ni Ubadilishaji wa Uso wa AI upi ulio bora zaidi?: PuLID vs InstantID vs FaceID

InstantID WINS kwa mtazamo wa kwanza haraka: busting soko kujazwa na maduka ya rangi. amevaa mavazi ya kawaida yenye mguso wa bohemian ,nywele nyekundu zilizopindapinda zilizopambwa kwa kitambaa kichwani, mandhari yenye kuvutia yenye watu na bidhaa za kigeni, akiwa ameshikilia kikapu cha matunda MEZA ya kulinganisha ya PuLID vs InstantID vs FaceID LAKINI PulID Flux ndiyo Bora Zaidi! becuz...

Isiyowekwa katika kundi

HunyuanVideo: Kuanzisha Enzi Mpya ya Uzalishaji wa Video wa Chanzo Huria

Katika maendeleo ya haraka ya teknolojia ya akili ya bandia, utengenezaji wa video umeibuka kama uwanja wa kupendeza sana. HunyuanVideo, muundo wa ubora wa juu wa utengenezaji wa video wa madhumuni ya jumla wa Kichina uliozinduliwa na Tencent, unaonekana kuwa kinara kati ya modeli za msingi za uzalishaji wa video huria leo, kutokana na utendakazi wake wa kipekee na asili ya chanzo huria. 1. Utangulizi wa HunyuanVideo Msingi…

Isiyowekwa katika kundi

Bidhaa 10 bora za AI wiki hii 2024 1101

Sekta ya akili bandia (AI) inabadilika kwa kasi na kubadilika. Tunashuhudia maendeleo mazuri na bidhaa za kibunifu ambazo zinasukuma mipaka ya kile tulichofikiri kinawezekana. Tumewasilisha baadhi ya bidhaa za kuvutia na za kisasa ambazo zimewekwa kuleta mapinduzi katika sekta mbalimbali na kuongeza tija ya kibinafsi wiki hii. OpenAI imezindua rasmi...

Isiyowekwa katika kundi

DeepSeek R1: Mfano wa AI Unaobadilisha Mchezo Chanzo Huria Ambacho Hushindana na OpenAI

Katika maendeleo makubwa ambayo yanaunda upya mandhari ya akili ya bandia, DeepSeek imezindua muundo wake unaotarajiwa sana wa DeepSeek R1. Jumba hili la nguvu la AI la chanzo huria liko katika nafasi ya kushindana na matoleo ya OpenAI, na kuleta uwezo wa hali ya juu katika hisabati, upangaji programu, na hoja zenye mantiki kwa hadhira pana. Wacha tuzame kwa undani kile kinachofanya DeepSeek R1 kuwa kibadilishaji mchezo katika…

Isiyowekwa katika kundi

TransPixar: Mfumo wa Uzalishaji wa Video wa Uwazi wa Mapinduzi wa AI

TransPixar: Kubadilisha Uundaji wa Maudhui ya Dijiti TransPixar inawakilisha maendeleo makubwa katika uzalishaji wa video unaoendeshwa na AI, iliyoundwa mahususi kuleta mapinduzi ya jinsi maudhui ya video ya uwazi yanavyoundwa. Kama kielelezo cha kisasa cha uzalishaji, TransPixar ina utaalam wa kujumuisha chaneli za alpha kwa uwazi, kuwezesha uundaji wa video wa RGBA usio na mshono ambao unakidhi mahitaji yanayohitajika ya uzalishaji wa kisasa wa athari za kuona. Teknolojia ya Core TransPixar…

Isiyowekwa katika kundi

Jenereta 10 Bora za Picha za Flux AI

Ni nini flux? Flux AI Image Jenereta ni muundo wa kisasa wa kutengeneza maandishi hadi picha uliotengenezwa na Black Forest Labs. Wao ni timu nzuri, wana maarifa mengi mapya kwenye jenereta ya picha ya Flux AI. Watumiaji wanaweza kutumia zana hii ya ubunifu kuunda picha za ubora wa juu kutoka kwa maelezo ya maandishi, kutumia mbinu za hali ya juu za akili za bandia. Kila mtu anaweza…

Uhariri wa Video Wima Unawezeshwa naMultimodal Generative Priors

01 Maudhui ya Manukuu

02 Matumizi ya Vitendo

03 Majaribio ya Tofauti na Utoaji

Teknolojia nyuma ya PortraitGen

Marejeleo

Machapisho Yanayofanana

Uhariri wa Video Wima Unawezeshwa na
Multimodal Generative Priors