ऑफ्यूज़न: अगली पीढ़ी का टेक्स्ट-टू-ऑडियो जेनरेशन मॉडल

दो गोलियों की आवाज के बाद पक्षियों की चहचहाट

एक कुत्ता भौंक रहा है

लोग स्टेडियम में खुशी मना रहे हैं, जबकि बिजली चमक रही है और बादल गरज रहे हैं

अत्याधुनिक तकनीक का अन्वेषण करें टेक्स्ट-टू-ऑडियो, ऑडियो-टू-ऑडियो, और ऑडियो इनपेंटिंग प्रसार और बड़े भाषा मॉडल द्वारा संचालित तकनीकें।

1 नेविगेशन

2 पेपर अवलोकन

एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना

जिनलोंग ज़ू, यायु डेंग, यिंगमिंग गाओ, या ली
1, बीजिंग यूनिवर्सिटी ऑफ पोस्ट्स एंड टेलीकम्युनिकेशंस, बीजिंग, चीन

ArXiv पर पेपर | GitHub पर कोड | गले लगाता चेहरा

2.1 सार

प्रसार मॉडल और वृहद भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआईजीसी के क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाया है। टेक्स्ट-टू-ऑडियो (TTA), प्राकृतिक भाषा संकेतों से ऑडियो उत्पन्न करने के लिए डिज़ाइन किया गया एक उभरता हुआ AIGC अनुप्रयोग, अधिकाधिक ध्यान आकर्षित कर रहा है। हालाँकि, मौजूदा TTA अध्ययन अक्सर निर्माण गुणवत्ता और पाठ-ऑडियो संरेखण के साथ संघर्ष करते हैं, विशेष रूप से जटिल पाठ्य इनपुट के लिए। अत्याधुनिक टेक्स्ट-टू-इमेज (T2I) प्रसार मॉडल से प्रेरणा लेते हुए, हम Auffusion पेश करते हैं - एक TTA प्रणाली जो अंतर्निहित जनरेटिव शक्तियों और सटीक क्रॉस-मोडल संरेखण का लाभ उठाकर ऑडियो निर्माण के लिए T2I मॉडल फ़्रेमवर्क को अनुकूलित करती है। वस्तुनिष्ठ और व्यक्तिपरक मूल्यांकन प्रदर्शित करते हैं कि सीमित डेटा और कम्प्यूटेशनल संसाधनों का उपयोग करते समय भी Auffusion पिछले TTA दृष्टिकोणों से आगे निकल जाता है। व्यापक पृथक्करण अध्ययन और अभिनव क्रॉस-अटेंशन मैप विज़ुअलाइज़ेशन इसके बेहतर टेक्स्ट-ऑडियो संरेखण को और अधिक प्रदर्शित करते हैं, जिससे ऑडियो स्टाइल ट्रांसफर, इनपेंटिंग और अन्य जोड़तोड़ जैसे संबंधित कार्यों को लाभ मिलता है।

2.2 नोट

ऑफ्यूज़न पाठ-सशर्त ध्वनि प्रभाव, मानव भाषण और संगीत उत्पन्न करता है।
अव्यक्त प्रसार मॉडल (LDM) को क्रॉस अटेंशन का उपयोग करते हुए स्थिर प्रसार के आधार पर एकल A6000 GPU पर प्रशिक्षित किया जाता है।
इसका मजबूत टेक्स्ट-ऑडियो संरेखण, टेक्स्ट-निर्देशित ऑडियो शैली स्थानांतरण, इनपेंटिंग और ध्यान-आधारित पुनर्वजनन/प्रतिस्थापन हेरफेर को सक्षम बनाता है।

2.3 चित्र 1: एफ़्यूज़न वास्तुकला का अवलोकन

प्रशिक्षण और अनुमान प्रक्रिया में चार फीचर स्पेस के बीच आगे-पीछे परिवर्तन शामिल हैं: ऑडियो, स्पेक्ट्रोग्राम, पिक्सेल और लेटेंट स्पेस। ध्यान दें कि यू-नेट को प्रीट्रेन्ड टेक्स्ट-टू-इमेज एलडीएम के साथ आरंभ किया गया है।

3 विषय-सूची

4 टेक्स्ट-टू-ऑडियो जनरेशन

4.1 लघु नमूने:

दो गोलियों की आवाज के बाद चिड़ियों की चहचहाहट / एक कुत्ता भौंक रहा है / लोग स्टेडियम में जयकार कर रहे हैं जबकि गरज और बिजली गिर रही है

4.2 ध्वनिक पर्यावरण नियंत्रण:

एक आदमी एक बड़े कमरे में बोल रहा है / एक आदमी एक छोटे से कमरे में बोल रहा है / एक आदमी एक स्टूडियो में बोल रहा है

4.3 सामग्री नियंत्रण:

लकड़ी की मेज पर टमाटर काटना / लकड़ी की मेज पर मांस काटना / धातु की मेज पर आलू काटना

4.4 पिच नियंत्रण:

कम पिच वाली साइन तरंग / मध्यम पिच वाली साइन तरंग / उच्च पिच वाली साइन तरंग

4.5 अस्थायी आदेश नियंत्रण:

एक रेसिंग कार गुजर रही है और गायब हो रही है / दो गोलियों की आवाज के बाद पक्षी चहचहाते हुए उड़ रहे हैं / लकड़ी की मेज की थपथपाहट की आवाज के बाद पानी गिरने की आवाज

4.6 लेबल-टू-ऑडियो जनरेशन:

सायरन / थंडर / ओइंक
धमाका / तालियाँ / पाद
चेनसॉ / आतिशबाजी / चिकन, मुर्गा
बिना शर्त पीढ़ी: "व्यर्थ"

5 चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन

खिलते हुए बगीचे में मधुर गीत गाते पक्षी
ध्यान आकर्षित करने के लिए बिल्ली का बच्चा म्याऊँ कर रहा है
जादुई परियों की हंसी एक जादुई जंगल में गूंज रही है
सोते समय सुनाई जा रही कहानी की धीमी फुसफुसाहट
एक बंदर अपने सिर पर बड़े परमाणु बम से हमला होने से पहले हंसता है
एक पेंसिल नोटपैड पर कुछ लिख रही है
तालाब में पानी का छपाक-छपना
गुल्लक में खनकते सिक्के
एक बच्चा स्टूडियो में सीटी बजा रहा है
दूर चर्च की दोपहर की घंटी बज रही है
यातायात में कार का हॉर्न बजना
गुस्साए बच्चे हताश होकर कांच तोड़ रहे हैं
एक पुराने जमाने का टाइपराइटर खट-खट कर रहा है
एक लड़की सबसे अधिक विक्षिप्त और घृणित दृश्य को देखकर चिल्ला रही है
दूर से ट्रेन की सीटी बज रही है

6 मल्टी इवेंट तुलना

टेक्स्ट विवरण बनाम ग्राउंड-ट्रुथ बनाम ऑडियोजेन बनाम ऑडियोएलडीएम बनाम ऑडियोएलडीएम2 बनाम टैंगो बनाम ऑफ्यूज़न

घड़ी की टिक-टिक के साथ घंटी बजती है और पृष्ठभूमि में टेलीविजन स्पीकर पर एक आदमी बोलता है, जिसके बाद धीमी घंटी बजती है
मोटर की भिनभिनाहट और गुनगुनाहट के साथ एक आदमी बोलता हुआ
जेट विमान के उड़ते ही मशीन गन की एक श्रृंखला और दो गोलियों की आवाज सुनाई देती है, जिसके बाद हल्का संगीत बजता है
औरत बोलती है, लड़की बोलती है, ताली बजती है, कर्कश आवाज आती है, उसके बाद हंसी आती है
कागज के टूटने, प्लास्टिक के चरमराने और फिर शौचालय के फ्लश की आवाज के बीच एक आदमी बात कर रहा है
बारिश हो रही है और पृष्ठभूमि में लोग बातें कर रहे हैं और हंस रहे हैं
लोग भारी कदमों से चलते हैं, रुकते हैं, पैर फिसलाते हैं, चलते हैं, रुकते हैं और फिर से चलना शुरू करते हैं

7 क्रॉस अटेंशन मैप तुलना

तुलना में शामिल हैं:
ऑफ्यूज़न-नो-प्रीट्रेन / ऑफ्यूज़न-डब्ल्यू-क्लिप / ऑफ्यूज़न-डब्ल्यू-क्लैप / ऑफ्यूज़न-डब्ल्यू-फ्लैंट5 / टैंगो।

8 टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर

उदाहरण:

बिल्ली के चिल्लाने से लेकर कार रेसिंग तक।
पक्षियों की चहचहाट से लेकर एम्बुलेंस के सायरन तक।
बच्चे के रोने से लेकर बिल्ली के म्याऊं-म्याऊं करने तक।

अन्य टिप्पणियां

हम ऑडियो जनरेशन मॉडल के प्रशिक्षण और मूल्यांकन को आसान तुलना के लिए ओपन सोर्स करने के लिए अपना कोड GitHub पर साझा करेंगे।
हम डेटा से संबंधित कॉपीराइट मुद्दों की पुष्टि कर रहे हैं, जिसके बाद पूर्व प्रशिक्षित मॉडल जारी किए जाएंगे।

भविष्य में सुधार

डेमो वेबसाइट और arXiv लिंक प्रकाशित करें।
ऑफ्यूज़न और ऑफ्यूज़न-फुल चेकपॉइंट प्रकाशित करें।
पाठ-निर्देशित शैली स्थानांतरण जोड़ें.
ऑडियो-टू-ऑडियो जनरेशन जोड़ें.
ऑडियो इनपेंटिंग जोड़ें.
ध्यान-आधारित शब्द स्वैप और पुनःवजन नियंत्रण (प्रॉम्प्ट2प्रॉम्प्ट-आधारित) जोड़ें।
ऑडियो सुपर-रिज़ॉल्यूशन जोड़ें.
ऑडियो-टू-ऑडियो, इनपेंटिंग, स्टाइल ट्रांसफर और सुपर-रेज़ोल्यूशन को एकीकृत करने वाला ग्रैडियो वेब एप्लिकेशन बनाएं।
डेटा प्रीप्रोसेसिंग और प्रशिक्षण कोड जोड़ें.

पावती

यह वेबसाइट यहां किए गए कार्य के आधार पर बनाई गई है ऑडियोएलडीएम GitHub.

सामान्य प्रश्न

आफ्यूज़न क्या है?
ऑफ्यूज़न एक अत्याधुनिक टेक्स्ट-टू-ऑडियो उत्पादन मॉडल है, जो पाठ्य संकेतों से उच्च गुणवत्ता वाला ऑडियो बनाने के लिए प्रसार मॉडल और बड़े भाषा मॉडल का लाभ उठाता है।
टेक्स्ट-टू-ऑडियो जनरेशन कैसे काम करता है?
यह प्रणाली एक अव्यक्त प्रसार मॉडल का उपयोग करके ऑडियो फीचर स्थानों में पाठ एम्बेडिंग को मैप करके पाठ्य विवरण को ऑडियो में बदल देती है, जिससे उच्च निष्ठा और सटीक संरेखण सुनिश्चित होता है।
आफ्यूज़न की मुख्य विशेषताएं क्या हैं?
ऑफ्यूज़न टेक्स्ट-टू-ऑडियो जेनरेशन, ऑडियो-टू-ऑडियो ट्रांसफॉर्मेशन, ऑडियो इनपेंटिंग और टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर का समर्थन करता है।
इस मॉडल में प्रसार की क्या भूमिका है?
प्रसार मॉडल पाठ्य इनपुट द्वारा निर्देशित रिवर्स प्रसार प्रक्रिया का पालन करके यादृच्छिक शोर को धीरे-धीरे सुसंगत ऑडियो संकेतों में बदलने में मदद करते हैं।
क्या मॉडल ओपन सोर्स है?
हां, कोड और मॉडल चेकप्वाइंट को ओपन-सोर्स बनाने का इरादा है, जिससे अनुसंधान समुदाय को परियोजना तक पहुंचने और उस पर काम करने की अनुमति मिल सके।
ऑफ्यूज़न को चलाने के लिए कौन से हार्डवेयर की आवश्यकता है?
मॉडल को एकल A6000 GPU पर प्रशिक्षित किया गया है; हालाँकि, आपके हार्डवेयर और विशिष्ट सेटअप के आधार पर प्रदर्शन भिन्न हो सकता है।
मैं ऑफ्यूज़न के साथ ऑडियो कैसे उत्पन्न कर सकता हूँ?
आप दिए गए अनुमान कोड को चला सकते हैं या अपने स्वयं के टेक्स्ट प्रॉम्प्ट से ऑडियो नमूने उत्पन्न करने के लिए कोलाब नोटबुक का उपयोग कर सकते हैं।
ऑडियो इनपेंटिंग क्या है?
ऑडियो इनपेंटिंग एक ऑडियो क्लिप के लुप्त भागों को भरने, निर्बाध परिवर्तन सुनिश्चित करने और समग्र ध्वनि अखंडता को बनाए रखने की प्रक्रिया है।
क्या मैं इस मॉडल का उपयोग व्यावसायिक उद्देश्यों के लिए कर सकता हूँ?
उपयोग के अधिकार मॉडल के लाइसेंस पर निर्भर करते हैं; कृपया वाणिज्यिक उपयोग के दिशा-निर्देशों के लिए रिपोजिटरी लाइसेंस और संलग्न दस्तावेज़ों की समीक्षा करें।
मैं ऑफ्यूज़न परियोजना में कैसे योगदान कर सकता हूँ?
आप समस्याओं की रिपोर्ट करके, सुधार का सुझाव देकर, या परियोजना के GitHub रिपोजिटरी के माध्यम से पुल अनुरोध प्रस्तुत करके योगदान कर सकते हैं।