दो गोलियों की आवाज के बाद पक्षियों की चहचहाट
एक कुत्ता भौंक रहा है
लोग स्टेडियम में खुशी मना रहे हैं, जबकि बिजली चमक रही है और बादल गरज रहे हैं
अत्याधुनिक तकनीक का अन्वेषण करें टेक्स्ट-टू-ऑडियो, ऑडियो-टू-ऑडियो, और ऑडियो इनपेंटिंग प्रसार और बड़े भाषा मॉडल द्वारा संचालित तकनीकें।
1 नेविगेशन
- एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
- एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
2 पेपर अवलोकन
एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना
जिनलोंग ज़ू, यायु डेंग, यिंगमिंग गाओ, या ली
1, बीजिंग यूनिवर्सिटी ऑफ पोस्ट्स एंड टेलीकम्युनिकेशंस, बीजिंग, चीन
ArXiv पर पेपर | GitHub पर कोड | गले लगाता चेहरा
2.1 सार
प्रसार मॉडल और वृहद भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआईजीसी के क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाया है। टेक्स्ट-टू-ऑडियो (TTA), प्राकृतिक भाषा संकेतों से ऑडियो उत्पन्न करने के लिए डिज़ाइन किया गया एक उभरता हुआ AIGC अनुप्रयोग, अधिकाधिक ध्यान आकर्षित कर रहा है। हालाँकि, मौजूदा TTA अध्ययन अक्सर निर्माण गुणवत्ता और पाठ-ऑडियो संरेखण के साथ संघर्ष करते हैं, विशेष रूप से जटिल पाठ्य इनपुट के लिए। अत्याधुनिक टेक्स्ट-टू-इमेज (T2I) प्रसार मॉडल से प्रेरणा लेते हुए, हम Auffusion पेश करते हैं - एक TTA प्रणाली जो अंतर्निहित जनरेटिव शक्तियों और सटीक क्रॉस-मोडल संरेखण का लाभ उठाकर ऑडियो निर्माण के लिए T2I मॉडल फ़्रेमवर्क को अनुकूलित करती है। वस्तुनिष्ठ और व्यक्तिपरक मूल्यांकन प्रदर्शित करते हैं कि सीमित डेटा और कम्प्यूटेशनल संसाधनों का उपयोग करते समय भी Auffusion पिछले TTA दृष्टिकोणों से आगे निकल जाता है। व्यापक पृथक्करण अध्ययन और अभिनव क्रॉस-अटेंशन मैप विज़ुअलाइज़ेशन इसके बेहतर टेक्स्ट-ऑडियो संरेखण को और अधिक प्रदर्शित करते हैं, जिससे ऑडियो स्टाइल ट्रांसफर, इनपेंटिंग और अन्य जोड़तोड़ जैसे संबंधित कार्यों को लाभ मिलता है।
2.2 नोट
- ऑफ्यूज़न पाठ-सशर्त ध्वनि प्रभाव, मानव भाषण और संगीत उत्पन्न करता है।
- अव्यक्त प्रसार मॉडल (LDM) को क्रॉस अटेंशन का उपयोग करते हुए स्थिर प्रसार के आधार पर एकल A6000 GPU पर प्रशिक्षित किया जाता है।
- इसका मजबूत टेक्स्ट-ऑडियो संरेखण, टेक्स्ट-निर्देशित ऑडियो शैली स्थानांतरण, इनपेंटिंग और ध्यान-आधारित पुनर्वजनन/प्रतिस्थापन हेरफेर को सक्षम बनाता है।
2.3 चित्र 1: एफ़्यूज़न वास्तुकला का अवलोकन
प्रशिक्षण और अनुमान प्रक्रिया में चार फीचर स्पेस के बीच आगे-पीछे परिवर्तन शामिल हैं: ऑडियो, स्पेक्ट्रोग्राम, पिक्सेल और लेटेंट स्पेस। ध्यान दें कि यू-नेट को प्रीट्रेन्ड टेक्स्ट-टू-इमेज एलडीएम के साथ आरंभ किया गया है।
3 विषय-सूची
- टेक्स्ट-टू-ऑडियो जनरेशन
- चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन
- मल्टी इवेंट तुलना
- क्रॉस अटेंशन मैप तुलना
- पाठ-निर्देशित ऑडियो शैली स्थानांतरण
- ऑडियो इनपेंटिंग
- ध्यान-आधारित प्रतिस्थापन
- ध्यान-आधारित पुनर्वजनन
- अन्य टिप्पणियां
- भविष्य में सुधार
- सामान्य प्रश्न
4 टेक्स्ट-टू-ऑडियो जनरेशन
4.1 लघु नमूने:
- दो गोलियों की आवाज के बाद चिड़ियों की चहचहाहट / एक कुत्ता भौंक रहा है / लोग स्टेडियम में जयकार कर रहे हैं जबकि गरज और बिजली गिर रही है
4.2 ध्वनिक पर्यावरण नियंत्रण:
- एक आदमी एक बड़े कमरे में बोल रहा है / एक आदमी एक छोटे से कमरे में बोल रहा है / एक आदमी एक स्टूडियो में बोल रहा है
4.3 सामग्री नियंत्रण:
- लकड़ी की मेज पर टमाटर काटना / लकड़ी की मेज पर मांस काटना / धातु की मेज पर आलू काटना
4.4 पिच नियंत्रण:
- कम पिच वाली साइन तरंग / मध्यम पिच वाली साइन तरंग / उच्च पिच वाली साइन तरंग
4.5 अस्थायी आदेश नियंत्रण:
- एक रेसिंग कार गुजर रही है और गायब हो रही है / दो गोलियों की आवाज के बाद पक्षी चहचहाते हुए उड़ रहे हैं / लकड़ी की मेज की थपथपाहट की आवाज के बाद पानी गिरने की आवाज
4.6 लेबल-टू-ऑडियो जनरेशन:
- सायरन / थंडर / ओइंक
- धमाका / तालियाँ / पाद
- चेनसॉ / आतिशबाजी / चिकन, मुर्गा
- बिना शर्त पीढ़ी: "व्यर्थ"
5 चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन
- खिलते हुए बगीचे में मधुर गीत गाते पक्षी
- ध्यान आकर्षित करने के लिए बिल्ली का बच्चा म्याऊँ कर रहा है
- जादुई परियों की हंसी एक जादुई जंगल में गूंज रही है
- सोते समय सुनाई जा रही कहानी की धीमी फुसफुसाहट
- एक बंदर अपने सिर पर बड़े परमाणु बम से हमला होने से पहले हंसता है
- एक पेंसिल नोटपैड पर कुछ लिख रही है
- तालाब में पानी का छपाक-छपना
- गुल्लक में खनकते सिक्के
- एक बच्चा स्टूडियो में सीटी बजा रहा है
- दूर चर्च की दोपहर की घंटी बज रही है
- यातायात में कार का हॉर्न बजना
- गुस्साए बच्चे हताश होकर कांच तोड़ रहे हैं
- एक पुराने जमाने का टाइपराइटर खट-खट कर रहा है
- एक लड़की सबसे अधिक विक्षिप्त और घृणित दृश्य को देखकर चिल्ला रही है
- दूर से ट्रेन की सीटी बज रही है
6 मल्टी इवेंट तुलना
टेक्स्ट विवरण बनाम ग्राउंड-ट्रुथ बनाम ऑडियोजेन बनाम ऑडियोएलडीएम बनाम ऑडियोएलडीएम2 बनाम टैंगो बनाम ऑफ्यूज़न
- घड़ी की टिक-टिक के साथ घंटी बजती है और पृष्ठभूमि में टेलीविजन स्पीकर पर एक आदमी बोलता है, जिसके बाद धीमी घंटी बजती है
- मोटर की भिनभिनाहट और गुनगुनाहट के साथ एक आदमी बोलता हुआ
- जेट विमान के उड़ते ही मशीन गन की एक श्रृंखला और दो गोलियों की आवाज सुनाई देती है, जिसके बाद हल्का संगीत बजता है
- औरत बोलती है, लड़की बोलती है, ताली बजती है, कर्कश आवाज आती है, उसके बाद हंसी आती है
- कागज के टूटने, प्लास्टिक के चरमराने और फिर शौचालय के फ्लश की आवाज के बीच एक आदमी बात कर रहा है
- बारिश हो रही है और पृष्ठभूमि में लोग बातें कर रहे हैं और हंस रहे हैं
- लोग भारी कदमों से चलते हैं, रुकते हैं, पैर फिसलाते हैं, चलते हैं, रुकते हैं और फिर से चलना शुरू करते हैं
7 क्रॉस अटेंशन मैप तुलना
तुलना में शामिल हैं:
ऑफ्यूज़न-नो-प्रीट्रेन / ऑफ्यूज़न-डब्ल्यू-क्लिप / ऑफ्यूज़न-डब्ल्यू-क्लैप / ऑफ्यूज़न-डब्ल्यू-फ्लैंट5 / टैंगो।
8 टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर
उदाहरण:
- बिल्ली के चिल्लाने से लेकर कार रेसिंग तक।
- पक्षियों की चहचहाट से लेकर एम्बुलेंस के सायरन तक।
- बच्चे के रोने से लेकर बिल्ली के म्याऊं-म्याऊं करने तक।
अन्य टिप्पणियां
- हम ऑडियो जनरेशन मॉडल के प्रशिक्षण और मूल्यांकन को आसान तुलना के लिए ओपन सोर्स करने के लिए अपना कोड GitHub पर साझा करेंगे।
- हम डेटा से संबंधित कॉपीराइट मुद्दों की पुष्टि कर रहे हैं, जिसके बाद पूर्व प्रशिक्षित मॉडल जारी किए जाएंगे।
भविष्य में सुधार
- डेमो वेबसाइट और arXiv लिंक प्रकाशित करें।
- ऑफ्यूज़न और ऑफ्यूज़न-फुल चेकपॉइंट प्रकाशित करें।
- पाठ-निर्देशित शैली स्थानांतरण जोड़ें.
- ऑडियो-टू-ऑडियो जनरेशन जोड़ें.
- ऑडियो इनपेंटिंग जोड़ें.
- ध्यान-आधारित शब्द स्वैप और पुनःवजन नियंत्रण (प्रॉम्प्ट2प्रॉम्प्ट-आधारित) जोड़ें।
- ऑडियो सुपर-रिज़ॉल्यूशन जोड़ें.
- ऑडियो-टू-ऑडियो, इनपेंटिंग, स्टाइल ट्रांसफर और सुपर-रेज़ोल्यूशन को एकीकृत करने वाला ग्रैडियो वेब एप्लिकेशन बनाएं।
- डेटा प्रीप्रोसेसिंग और प्रशिक्षण कोड जोड़ें.
पावती
यह वेबसाइट यहां किए गए कार्य के आधार पर बनाई गई है ऑडियोएलडीएम GitHub.
सामान्य प्रश्न
- आफ्यूज़न क्या है?
ऑफ्यूज़न एक अत्याधुनिक टेक्स्ट-टू-ऑडियो उत्पादन मॉडल है, जो पाठ्य संकेतों से उच्च गुणवत्ता वाला ऑडियो बनाने के लिए प्रसार मॉडल और बड़े भाषा मॉडल का लाभ उठाता है। - टेक्स्ट-टू-ऑडियो जनरेशन कैसे काम करता है?
यह प्रणाली एक अव्यक्त प्रसार मॉडल का उपयोग करके ऑडियो फीचर स्थानों में पाठ एम्बेडिंग को मैप करके पाठ्य विवरण को ऑडियो में बदल देती है, जिससे उच्च निष्ठा और सटीक संरेखण सुनिश्चित होता है। - आफ्यूज़न की मुख्य विशेषताएं क्या हैं?
ऑफ्यूज़न टेक्स्ट-टू-ऑडियो जेनरेशन, ऑडियो-टू-ऑडियो ट्रांसफॉर्मेशन, ऑडियो इनपेंटिंग और टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर का समर्थन करता है। - इस मॉडल में प्रसार की क्या भूमिका है?
प्रसार मॉडल पाठ्य इनपुट द्वारा निर्देशित रिवर्स प्रसार प्रक्रिया का पालन करके यादृच्छिक शोर को धीरे-धीरे सुसंगत ऑडियो संकेतों में बदलने में मदद करते हैं। - क्या मॉडल ओपन सोर्स है?
हां, कोड और मॉडल चेकप्वाइंट को ओपन-सोर्स बनाने का इरादा है, जिससे अनुसंधान समुदाय को परियोजना तक पहुंचने और उस पर काम करने की अनुमति मिल सके। - ऑफ्यूज़न को चलाने के लिए कौन से हार्डवेयर की आवश्यकता है?
मॉडल को एकल A6000 GPU पर प्रशिक्षित किया गया है; हालाँकि, आपके हार्डवेयर और विशिष्ट सेटअप के आधार पर प्रदर्शन भिन्न हो सकता है। - मैं ऑफ्यूज़न के साथ ऑडियो कैसे उत्पन्न कर सकता हूँ?
आप दिए गए अनुमान कोड को चला सकते हैं या अपने स्वयं के टेक्स्ट प्रॉम्प्ट से ऑडियो नमूने उत्पन्न करने के लिए कोलाब नोटबुक का उपयोग कर सकते हैं। - ऑडियो इनपेंटिंग क्या है?
ऑडियो इनपेंटिंग एक ऑडियो क्लिप के लुप्त भागों को भरने, निर्बाध परिवर्तन सुनिश्चित करने और समग्र ध्वनि अखंडता को बनाए रखने की प्रक्रिया है। - क्या मैं इस मॉडल का उपयोग व्यावसायिक उद्देश्यों के लिए कर सकता हूँ?
उपयोग के अधिकार मॉडल के लाइसेंस पर निर्भर करते हैं; कृपया वाणिज्यिक उपयोग के दिशा-निर्देशों के लिए रिपोजिटरी लाइसेंस और संलग्न दस्तावेज़ों की समीक्षा करें। - मैं ऑफ्यूज़न परियोजना में कैसे योगदान कर सकता हूँ?
आप समस्याओं की रिपोर्ट करके, सुधार का सुझाव देकर, या परियोजना के GitHub रिपोजिटरी के माध्यम से पुल अनुरोध प्रस्तुत करके योगदान कर सकते हैं।