पोर्ट्रेट वीडियो संपादन द्वारा सशक्त
मल्टीमॉडल जनरेटिव प्रायर्स

पारंपरिक पोर्ट्रेट वीडियो संपादन विधियों में अक्सर 3D प्रभाव और अस्थायी स्थिरता की समस्या होती है, और रेंडरिंग गुणवत्ता और दक्षता के मामले में भी खराब प्रदर्शन होता है। इन मुद्दों को संबोधित करने के लिए, पोर्ट्रेटजेन पोर्ट्रेट वीडियो के प्रत्येक फ्रेम को एक एकीकृत गतिशील 3D गॉसियन फ़ील्ड में ऊपर उठाता है, जो फ्रेम से फ्रेम तक संरचनात्मक और अस्थायी स्थिरता सुनिश्चित करता है। पोर्ट्रेटजेन एक शक्तिशाली पोर्ट्रेट वीडियो संपादन विधि है जो मल्टी-मोडल संकेतों के साथ सुसंगत और अभिव्यंजक शैलीकरण की अनुमति देती है।
इसके अलावा, पोर्ट्रेटजेन ने एक नया न्यूरल गॉसियन टेक्सचरिंग मैकेनिज्म तैयार किया है जो न केवल जटिल स्टाइलिस्टिक एडिटिंग की अनुमति देता है, बल्कि 100 फ्रेम प्रति सेकंड से अधिक की रेंडरिंग गति भी सक्षम बनाता है। पोर्ट्रेटजेन इनपुट की एक विस्तृत श्रृंखला को जोड़ता है जो बड़े पैमाने पर 2D जनरेटिव मॉडल से प्राप्त ज्ञान द्वारा बढ़ाया जाता है। यह अभिव्यक्ति समानता मार्गदर्शन और एक चेहरे की पहचान पोर्ट्रेट संपादन मॉड्यूल भी पेश करता है, जो डेटासेट को बार-बार अपडेट करते समय होने वाली समस्याओं को प्रभावी ढंग से कम करता है। (लेख के निचले भाग में लिंक)
01 कैप्शन सामग्री
पोर्ट्रेटजेन 2D पोर्ट्रेट वीडियो को मल्टीमॉडल पोर्ट्रेट संपादन के लिए मात्र 30 मिनट में 4D गॉसियन फील्ड में बदल देता है। संपादित 3D पोर्ट्रेट को 100 फ्रेम प्रति सेकंड पर रेंडर किया जा सकता है। मोनोकुलर वीडियो में SMPL-X गुणांकों को पहले ट्रैक किया जाता है, और फिर न्यूरो-गॉसियन टेक्सचर मैकेनिज्म का उपयोग करके 3D गॉसियन फीचर फील्ड तैयार किया जाता है।
इस न्यूरो-गॉसियन डेटा को पोर्ट्रेट छवि प्रस्तुत करने के लिए आगे संसाधित किया जाता है। पोर्ट्रेटजेन पोर्ट्रेट संपादन के लिए एक पुनरावृत्त डेटासेट अद्यतन रणनीति का भी उपयोग करता है और भावों की गुणवत्ता बढ़ाने और व्यक्तिगत चेहरे की संरचना को संरक्षित करने के लिए एक चेहरे की पहचान संपादन मॉड्यूल का प्रस्ताव करता है।
02 व्यावहारिक उपयोग
पोर्ट्रेटजेन समाधान पोर्ट्रेट वीडियो संपादन के लिए एक एकीकृत ढांचा है। संरचना को संरक्षित करने वाले किसी भी छवि संपादन मॉडल का उपयोग 3D सुसंगत और अस्थायी रूप से सुसंगत पोर्ट्रेट वीडियो बनाने के लिए किया जा सकता है।
टेक्स्ट-संचालित संपादन: InstructPix2Pix का उपयोग 2D संपादन मॉडल के रूप में किया जाता है। इसके UNet को तीन इनपुट की आवश्यकता होती है: एक इनपुट RGB छवि, एक टेक्स्ट कमांड और एक नॉइज़ लेटेंट। रेंडर की गई छवि में कुछ नॉइज़ जोड़ता है और इनपुट स्रोत छवि और निर्देशों के आधार पर इसे संपादित करता है।
छवि-संचालित संपादन: छवि संकेतों के आधार पर दो प्रकार के संपादन पर ध्यान केंद्रित करता है। एक संदर्भ छवि की वैश्विक शैली को निकालना है और दूसरा विशिष्ट स्थानों पर वस्तुओं को रखकर छवि को अनुकूलित करना है। इन विधियों का प्रयोग स्टाइल माइग्रेशन और वर्चुअल फिटिंग के लिए प्रयोगात्मक रूप से किया जाता है। संदर्भ छवि की शैली को न्यूरल स्टाइल माइग्रेशन एल्गोरिदम का उपयोग करके डेटासेट फ़्रेम में माइग्रेट किया गया था और विषय के कपड़ों को AnyDoor का उपयोग करके बदला गया था।
रीलाइटिंग: वीडियो फ्रेम की लाइटिंग में हेरफेर करने के लिए IC-लाइट का उपयोग करना। लाइटिंग की स्थिति के रूप में टेक्स्ट विवरण दिए जाने पर, पोर्ट्रेटजेन विधि पोर्ट्रेट वीडियो की लाइटिंग को सामंजस्यपूर्ण ढंग से समायोजित करती है
03 कंट्रास्ट और एब्लेशन प्रयोग
पोर्ट्रेटजेन विधि की तुलना अत्याधुनिक वीडियो संपादन विधियों जैसे टोकनफ्लो, रीरेंडर ए वीडियो, कोडएफ और एनीवी2वी से की जाती है। पोर्ट्रेटजेन विधि जस्ट-इन-टाइम संरक्षण, पहचान संरक्षण और अस्थायी स्थिरता के संदर्भ में अन्य विधियों से काफी बेहतर प्रदर्शन करती है।
समय अवधि 00:47
'विलंबित तंत्रिका रेंडरिंग' में प्रस्तावित तंत्रिका बनावट से प्रेरित होकर, पोर्ट्रेटजेन एक तंत्रिका गॉसियन बनावट का प्रस्ताव करता है। यह दृष्टिकोण गोलाकार हार्मोनिक गुणांकों को संग्रहीत करने के बजाय प्रत्येक गॉसियन के लिए सीखने योग्य विशेषताओं को संग्रहीत करता है। इसके बाद, संसाधित फ़ीचर मैप्स को RGB सिग्नल में बदलने के लिए 2D न्यूरल रेंडरर का उपयोग किया जाता है। यह विधि गोलाकार हार्मोनिक गुणांकों की तुलना में अधिक समृद्ध जानकारी प्रदान करती है और संसाधित सुविधाओं के बेहतर संलयन की अनुमति देती है, जिससे लेगो और पिक्सेल कला जैसी जटिल शैलियों को संपादित करना आसान हो जाता है।
ऊपरी शरीर की छवि को संपादित करते समय, यदि चेहरा एक छोटे से क्षेत्र में फैला हुआ है, तो मॉडल का संपादन सिर की मुद्रा और चेहरे की संरचना के लिए अच्छी तरह से अनुकूल नहीं हो सकता है। फेशियल अवेयरनेस पोर्ट्रेट एडिटिंग (FA) चेहरे की संरचना पर फ़ोकस बढ़ाने के लिए दो संपादन करके परिणामों को बेहतर बना सकता है।
प्रस्तुत छवि और इनपुट स्रोत छवि को EMOCA के अव्यक्त अभिव्यक्ति स्थान में मैप करके और अभिव्यक्तियों की समानता को अनुकूलित करके, हम यह सुनिश्चित कर सकते हैं कि अभिव्यक्तियाँ प्राकृतिक रहें और मूल वीडियो फ़्रेमों के अनुरूप रहें।
पोर्ट्रेटजेन के पीछे की तकनीक

संदर्भ
आप PotraitGen के बारे में अधिक जानकारी यहाँ पा सकते हैं: https://ustc3dv.github.io/PortraitGen/