दो गोलियों की आवाज के बाद पक्षियों की चहचहाट
एक कुत्ता भौंक रहा है
लोग स्टेडियम में खुशी मना रहे हैं, जबकि बिजली चमक रही है और बादल गरज रहे हैं
अत्याधुनिक तकनीक का अन्वेषण करें टेक्स्ट-टू-ऑडियो, ऑडियो-टू-ऑडियो, और ऑडियो इनपेंटिंग प्रसार और बड़े भाषा मॉडल द्वारा संचालित तकनीकें।
1 नेविगेशन
- एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
- एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
2 पेपर अवलोकन
एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
जिनलोंग ज़ू, यायु डेंग, यिंगमिंग गाओ, या ली
1, बीजिंग यूनिवर्सिटी ऑफ पोस्ट्स एंड टेलीकम्युनिकेशंस, बीजिंग, चीन
ArXiv पर पेपर | GitHub पर कोड | गले लगाता चेहरा
2.1 सार
प्रसार मॉडल और वृहद भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआईजीसी के क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाया है। टेक्स्ट-टू-ऑडियो (TTA), प्राकृतिक भाषा संकेतों से ऑडियो उत्पन्न करने के लिए डिज़ाइन किया गया एक उभरता हुआ AIGC अनुप्रयोग, अधिकाधिक ध्यान आकर्षित कर रहा है। हालाँकि, मौजूदा TTA अध्ययन अक्सर निर्माण गुणवत्ता और पाठ-ऑडियो संरेखण के साथ संघर्ष करते हैं, विशेष रूप से जटिल पाठ्य इनपुट के लिए। अत्याधुनिक टेक्स्ट-टू-इमेज (T2I) प्रसार मॉडल से प्रेरणा लेते हुए, हम Auffusion पेश करते हैं - एक TTA प्रणाली जो अंतर्निहित जनरेटिव शक्तियों और सटीक क्रॉस-मोडल संरेखण का लाभ उठाकर ऑडियो निर्माण के लिए T2I मॉडल फ़्रेमवर्क को अनुकूलित करती है। वस्तुनिष्ठ और व्यक्तिपरक मूल्यांकन प्रदर्शित करते हैं कि सीमित डेटा और कम्प्यूटेशनल संसाधनों का उपयोग करते समय भी Auffusion पिछले TTA दृष्टिकोणों से आगे निकल जाता है। व्यापक पृथक्करण अध्ययन और अभिनव क्रॉस-अटेंशन मैप विज़ुअलाइज़ेशन इसके बेहतर टेक्स्ट-ऑडियो संरेखण को और अधिक प्रदर्शित करते हैं, जिससे ऑडियो स्टाइल ट्रांसफर, इनपेंटिंग और अन्य जोड़तोड़ जैसे संबंधित कार्यों को लाभ मिलता है।
2.2 नोट
- ऑफ्यूज़न पाठ-सशर्त ध्वनि प्रभाव, मानव भाषण और संगीत उत्पन्न करता है।
- अव्यक्त प्रसार मॉडल (LDM) को क्रॉस अटेंशन का उपयोग करते हुए स्थिर प्रसार के आधार पर एकल A6000 GPU पर प्रशिक्षित किया जाता है।
- इसका मजबूत टेक्स्ट-ऑडियो संरेखण, टेक्स्ट-निर्देशित ऑडियो शैली स्थानांतरण, इनपेंटिंग और ध्यान-आधारित पुनर्वजनन/प्रतिस्थापन हेरफेर को सक्षम बनाता है।
2.3 चित्र 1: एफ़्यूज़न वास्तुकला का अवलोकन
प्रशिक्षण और अनुमान प्रक्रिया में चार फीचर स्पेस के बीच आगे-पीछे परिवर्तन शामिल हैं: ऑडियो, स्पेक्ट्रोग्राम, पिक्सेल और लेटेंट स्पेस। ध्यान दें कि यू-नेट को प्रीट्रेन्ड टेक्स्ट-टू-इमेज एलडीएम के साथ आरंभ किया गया है।
3 विषय-सूची
- टेक्स्ट-टू-ऑडियो जनरेशन
- चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन
- मल्टी इवेंट तुलना
- क्रॉस अटेंशन मैप तुलना
- पाठ-निर्देशित ऑडियो शैली स्थानांतरण
- ऑडियो इनपेंटिंग
- ध्यान-आधारित प्रतिस्थापन
- ध्यान-आधारित पुनर्वजनन
- अन्य टिप्पणियां
- भविष्य में सुधार
- सामान्य प्रश्न
4 टेक्स्ट-टू-ऑडियो जनरेशन
4.1 लघु नमूने:
- दो गोलियों की आवाज के बाद चिड़ियों की चहचहाहट / एक कुत्ता भौंक रहा है / लोग स्टेडियम में जयकार कर रहे हैं जबकि गरज और बिजली गिर रही है
4.2 ध्वनिक पर्यावरण नियंत्रण:
- एक आदमी एक बड़े कमरे में बोल रहा है / एक आदमी एक छोटे से कमरे में बोल रहा है / एक आदमी एक स्टूडियो में बोल रहा है
4.3 सामग्री नियंत्रण:
- लकड़ी की मेज पर टमाटर काटना / लकड़ी की मेज पर मांस काटना / धातु की मेज पर आलू काटना
4.4 पिच नियंत्रण:
- कम पिच वाली साइन तरंग / मध्यम पिच वाली साइन तरंग / उच्च पिच वाली साइन तरंग
4.5 अस्थायी आदेश नियंत्रण:
- एक रेसिंग कार गुजर रही है और गायब हो रही है / दो गोलियों की आवाज के बाद पक्षी चहचहाते हुए उड़ रहे हैं / लकड़ी की मेज की थपथपाहट की आवाज के बाद पानी गिरने की आवाज
4.6 लेबल-टू-ऑडियो जनरेशन:
- सायरन / थंडर / ओइंक
- धमाका / तालियाँ / पाद
- चेनसॉ / आतिशबाजी / चिकन, मुर्गा
- बिना शर्त पीढ़ी: "व्यर्थ"
5 चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन
- खिलते हुए बगीचे में मधुर गीत गाते पक्षी
- ध्यान आकर्षित करने के लिए बिल्ली का बच्चा म्याऊँ कर रहा है
- जादुई परियों की हंसी एक जादुई जंगल में गूंज रही है
- सोते समय सुनाई जा रही कहानी की धीमी फुसफुसाहट
- एक बंदर अपने सिर पर बड़े परमाणु बम से हमला होने से पहले हंसता है
- एक पेंसिल नोटपैड पर कुछ लिख रही है
- तालाब में पानी का छपाक-छपना
- गुल्लक में खनकते सिक्के
- एक बच्चा स्टूडियो में सीटी बजा रहा है
- दूर चर्च की दोपहर की घंटी बज रही है
- यातायात में कार का हॉर्न बजना
- गुस्साए बच्चे हताश होकर कांच तोड़ रहे हैं
- एक पुराने जमाने का टाइपराइटर खट-खट कर रहा है
- एक लड़की सबसे अधिक विक्षिप्त और घृणित दृश्य को देखकर चिल्ला रही है
- दूर से ट्रेन की सीटी बज रही है
6 मल्टी इवेंट तुलना
टेक्स्ट विवरण बनाम ग्राउंड-ट्रुथ बनाम ऑडियोजेन बनाम ऑडियोएलडीएम बनाम ऑडियोएलडीएम2 बनाम टैंगो बनाम ऑफ्यूज़न
- घड़ी की टिक-टिक के साथ घंटी बजती है और पृष्ठभूमि में टेलीविजन स्पीकर पर एक आदमी बोलता है, जिसके बाद धीमी घंटी बजती है
- मोटर की भिनभिनाहट और गुनगुनाहट के साथ एक आदमी बोलता हुआ
- जेट विमान के उड़ते ही मशीन गन की एक श्रृंखला और दो गोलियों की आवाज सुनाई देती है, जिसके बाद हल्का संगीत बजता है
- औरत बोलती है, लड़की बोलती है, ताली बजती है, कर्कश आवाज आती है, उसके बाद हंसी आती है
- कागज के टूटने, प्लास्टिक के चरमराने और फिर शौचालय के फ्लश की आवाज के बीच एक आदमी बात कर रहा है
- बारिश हो रही है और पृष्ठभूमि में लोग बातें कर रहे हैं और हंस रहे हैं
- लोग भारी कदमों से चलते हैं, रुकते हैं, पैर फिसलाते हैं, चलते हैं, रुकते हैं और फिर से चलना शुरू करते हैं
7 क्रॉस अटेंशन मैप तुलना
तुलना में शामिल हैं:
ऑफ्यूज़न-नो-प्रीट्रेन / ऑफ्यूज़न-डब्ल्यू-क्लिप / ऑफ्यूज़न-डब्ल्यू-क्लैप / ऑफ्यूज़न-डब्ल्यू-फ्लैंट5 / टैंगो।
8 टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर
उदाहरण:
- बिल्ली के चिल्लाने से लेकर कार रेसिंग तक।
- पक्षियों की चहचहाट से लेकर एम्बुलेंस के सायरन तक।
- बच्चे के रोने से लेकर बिल्ली के म्याऊं-म्याऊं करने तक।
अन्य टिप्पणियां
- हम ऑडियो जनरेशन मॉडल के प्रशिक्षण और मूल्यांकन को आसान तुलना के लिए ओपन सोर्स करने के लिए अपना कोड GitHub पर साझा करेंगे।
- हम डेटा से संबंधित कॉपीराइट मुद्दों की पुष्टि कर रहे हैं, जिसके बाद पूर्व प्रशिक्षित मॉडल जारी किए जाएंगे।
भविष्य में सुधार
- डेमो वेबसाइट और arXiv लिंक प्रकाशित करें।
- ऑफ्यूज़न और ऑफ्यूज़न-फुल चेकपॉइंट प्रकाशित करें।
- पाठ-निर्देशित शैली स्थानांतरण जोड़ें.
- ऑडियो-टू-ऑडियो जनरेशन जोड़ें.
- ऑडियो इनपेंटिंग जोड़ें.
- ध्यान-आधारित शब्द स्वैप और पुनःवजन नियंत्रण (प्रॉम्प्ट2प्रॉम्प्ट-आधारित) जोड़ें।
- ऑडियो सुपर-रिज़ॉल्यूशन जोड़ें.
- ऑडियो-टू-ऑडियो, इनपेंटिंग, स्टाइल ट्रांसफर और सुपर-रेज़ोल्यूशन को एकीकृत करने वाला ग्रैडियो वेब एप्लिकेशन बनाएं।
- डेटा प्रीप्रोसेसिंग और प्रशिक्षण कोड जोड़ें.
पावती
यह वेबसाइट यहां किए गए कार्य के आधार पर बनाई गई है ऑडियोएलडीएम GitHub.
सामान्य प्रश्न
- आफ्यूज़न क्या है?
 ऑफ्यूज़न एक अत्याधुनिक टेक्स्ट-टू-ऑडियो उत्पादन मॉडल है, जो पाठ्य संकेतों से उच्च गुणवत्ता वाला ऑडियो बनाने के लिए प्रसार मॉडल और बड़े भाषा मॉडल का लाभ उठाता है।
- टेक्स्ट-टू-ऑडियो जनरेशन कैसे काम करता है?
 यह प्रणाली एक अव्यक्त प्रसार मॉडल का उपयोग करके ऑडियो फीचर स्थानों में पाठ एम्बेडिंग को मैप करके पाठ्य विवरण को ऑडियो में बदल देती है, जिससे उच्च निष्ठा और सटीक संरेखण सुनिश्चित होता है।
- आफ्यूज़न की मुख्य विशेषताएं क्या हैं?
 ऑफ्यूज़न टेक्स्ट-टू-ऑडियो जेनरेशन, ऑडियो-टू-ऑडियो ट्रांसफॉर्मेशन, ऑडियो इनपेंटिंग और टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर का समर्थन करता है।
- इस मॉडल में प्रसार की क्या भूमिका है?
 प्रसार मॉडल पाठ्य इनपुट द्वारा निर्देशित रिवर्स प्रसार प्रक्रिया का पालन करके यादृच्छिक शोर को धीरे-धीरे सुसंगत ऑडियो संकेतों में बदलने में मदद करते हैं।
- क्या मॉडल ओपन सोर्स है?
 हां, कोड और मॉडल चेकप्वाइंट को ओपन-सोर्स बनाने का इरादा है, जिससे अनुसंधान समुदाय को परियोजना तक पहुंचने और उस पर काम करने की अनुमति मिल सके।
- ऑफ्यूज़न को चलाने के लिए कौन से हार्डवेयर की आवश्यकता है?
 मॉडल को एकल A6000 GPU पर प्रशिक्षित किया गया है; हालाँकि, आपके हार्डवेयर और विशिष्ट सेटअप के आधार पर प्रदर्शन भिन्न हो सकता है।
- मैं ऑफ्यूज़न के साथ ऑडियो कैसे उत्पन्न कर सकता हूँ?
 आप दिए गए अनुमान कोड को चला सकते हैं या अपने स्वयं के टेक्स्ट प्रॉम्प्ट से ऑडियो नमूने उत्पन्न करने के लिए कोलाब नोटबुक का उपयोग कर सकते हैं।
- ऑडियो इनपेंटिंग क्या है?
 ऑडियो इनपेंटिंग एक ऑडियो क्लिप के लुप्त भागों को भरने, निर्बाध परिवर्तन सुनिश्चित करने और समग्र ध्वनि अखंडता को बनाए रखने की प्रक्रिया है।
- क्या मैं इस मॉडल का उपयोग व्यावसायिक उद्देश्यों के लिए कर सकता हूँ?
 उपयोग के अधिकार मॉडल के लाइसेंस पर निर्भर करते हैं; कृपया वाणिज्यिक उपयोग के दिशा-निर्देशों के लिए रिपोजिटरी लाइसेंस और संलग्न दस्तावेज़ों की समीक्षा करें।
- मैं ऑफ्यूज़न परियोजना में कैसे योगदान कर सकता हूँ?
 आप समस्याओं की रिपोर्ट करके, सुधार का सुझाव देकर, या परियोजना के GitHub रिपोजिटरी के माध्यम से पुल अनुरोध प्रस्तुत करके योगदान कर सकते हैं।

 Hindi
Hindi				 English
English					           Japanese
Japanese					           Korean
Korean					           French
French					           German
German					           Chinese (China)
Chinese (China)					           Chinese (Taiwan)
Chinese (Taiwan)					           Portuguese
Portuguese					           Italian
Italian					           Swedish
Swedish					           Russian
Russian					           Arabic
Arabic					           Spanish
Spanish					           Czech
Czech					           Swahili
Swahili					           Romanian
Romanian					           Thai
Thai					           Indonesian
Indonesian					           Norwegian
Norwegian					           Norwegian
Norwegian