दो गोलियों की आवाज के बाद पक्षियों की चहचहाट

एक कुत्ता भौंक रहा है

लोग स्टेडियम में खुशी मना रहे हैं, जबकि बिजली चमक रही है और बादल गरज रहे हैं

अत्याधुनिक तकनीक का अन्वेषण करें टेक्स्ट-टू-ऑडियोऑडियो-टू-ऑडियो, और ऑडियो इनपेंटिंग प्रसार और बड़े भाषा मॉडल द्वारा संचालित तकनीकें।

1 नेविगेशन

2 पेपर अवलोकन

एफ़्यूज़न: टेक्स्ट-टू-ऑडियो जेनरेशन के लिए डिफ़्यूज़न और बड़े भाषा मॉडल की शक्ति का लाभ उठाना

जिनलोंग ज़ू, यायु डेंग, यिंगमिंग गाओ, या ली
1, बीजिंग यूनिवर्सिटी ऑफ पोस्ट्स एंड टेलीकम्युनिकेशंस, बीजिंग, चीन

ArXiv पर पेपर | GitHub पर कोड | गले लगाता चेहरा

2.1 सार

प्रसार मॉडल और वृहद भाषा मॉडल (एलएलएम) में हाल की प्रगति ने एआईजीसी के क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाया है। टेक्स्ट-टू-ऑडियो (TTA), प्राकृतिक भाषा संकेतों से ऑडियो उत्पन्न करने के लिए डिज़ाइन किया गया एक उभरता हुआ AIGC अनुप्रयोग, अधिकाधिक ध्यान आकर्षित कर रहा है। हालाँकि, मौजूदा TTA अध्ययन अक्सर निर्माण गुणवत्ता और पाठ-ऑडियो संरेखण के साथ संघर्ष करते हैं, विशेष रूप से जटिल पाठ्य इनपुट के लिए। अत्याधुनिक टेक्स्ट-टू-इमेज (T2I) प्रसार मॉडल से प्रेरणा लेते हुए, हम Auffusion पेश करते हैं - एक TTA प्रणाली जो अंतर्निहित जनरेटिव शक्तियों और सटीक क्रॉस-मोडल संरेखण का लाभ उठाकर ऑडियो निर्माण के लिए T2I मॉडल फ़्रेमवर्क को अनुकूलित करती है। वस्तुनिष्ठ और व्यक्तिपरक मूल्यांकन प्रदर्शित करते हैं कि सीमित डेटा और कम्प्यूटेशनल संसाधनों का उपयोग करते समय भी Auffusion पिछले TTA दृष्टिकोणों से आगे निकल जाता है। व्यापक पृथक्करण अध्ययन और अभिनव क्रॉस-अटेंशन मैप विज़ुअलाइज़ेशन इसके बेहतर टेक्स्ट-ऑडियो संरेखण को और अधिक प्रदर्शित करते हैं, जिससे ऑडियो स्टाइल ट्रांसफर, इनपेंटिंग और अन्य जोड़तोड़ जैसे संबंधित कार्यों को लाभ मिलता है।

2.2 नोट

  • ऑफ्यूज़न पाठ-सशर्त ध्वनि प्रभाव, मानव भाषण और संगीत उत्पन्न करता है।
  • अव्यक्त प्रसार मॉडल (LDM) को क्रॉस अटेंशन का उपयोग करते हुए स्थिर प्रसार के आधार पर एकल A6000 GPU पर प्रशिक्षित किया जाता है।
  • इसका मजबूत टेक्स्ट-ऑडियो संरेखण, टेक्स्ट-निर्देशित ऑडियो शैली स्थानांतरण, इनपेंटिंग और ध्यान-आधारित पुनर्वजनन/प्रतिस्थापन हेरफेर को सक्षम बनाता है।

2.3 चित्र 1: एफ़्यूज़न वास्तुकला का अवलोकन

प्रशिक्षण और अनुमान प्रक्रिया में चार फीचर स्पेस के बीच आगे-पीछे परिवर्तन शामिल हैं: ऑडियो, स्पेक्ट्रोग्राम, पिक्सेल और लेटेंट स्पेस। ध्यान दें कि यू-नेट को प्रीट्रेन्ड टेक्स्ट-टू-इमेज एलडीएम के साथ आरंभ किया गया है।

3 विषय-सूची

4 टेक्स्ट-टू-ऑडियो जनरेशन

4.1 लघु नमूने:

  • दो गोलियों की आवाज के बाद चिड़ियों की चहचहाहट / एक कुत्ता भौंक रहा है / लोग स्टेडियम में जयकार कर रहे हैं जबकि गरज और बिजली गिर रही है

4.2 ध्वनिक पर्यावरण नियंत्रण:

  • एक आदमी एक बड़े कमरे में बोल रहा है / एक आदमी एक छोटे से कमरे में बोल रहा है / एक आदमी एक स्टूडियो में बोल रहा है

4.3 सामग्री नियंत्रण:

  • लकड़ी की मेज पर टमाटर काटना / लकड़ी की मेज पर मांस काटना / धातु की मेज पर आलू काटना

4.4 पिच नियंत्रण:

  • कम पिच वाली साइन तरंग / मध्यम पिच वाली साइन तरंग / उच्च पिच वाली साइन तरंग

4.5 अस्थायी आदेश नियंत्रण:

  • एक रेसिंग कार गुजर रही है और गायब हो रही है / दो गोलियों की आवाज के बाद पक्षी चहचहाते हुए उड़ रहे हैं / लकड़ी की मेज की थपथपाहट की आवाज के बाद पानी गिरने की आवाज

4.6 लेबल-टू-ऑडियो जनरेशन:

  • सायरन / थंडर / ओइंक
  • धमाका / तालियाँ / पाद
  • चेनसॉ / आतिशबाजी / चिकन, मुर्गा
  • बिना शर्त पीढ़ी: "व्यर्थ"

5 चैटजीपीटी टेक्स्ट प्रॉम्प्ट के साथ टीटीए जनरेशन

  • खिलते हुए बगीचे में मधुर गीत गाते पक्षी
  • ध्यान आकर्षित करने के लिए बिल्ली का बच्चा म्याऊँ कर रहा है
  • जादुई परियों की हंसी एक जादुई जंगल में गूंज रही है
  • सोते समय सुनाई जा रही कहानी की धीमी फुसफुसाहट
  • एक बंदर अपने सिर पर बड़े परमाणु बम से हमला होने से पहले हंसता है
  • एक पेंसिल नोटपैड पर कुछ लिख रही है
  • तालाब में पानी का छपाक-छपना
  • गुल्लक में खनकते सिक्के
  • एक बच्चा स्टूडियो में सीटी बजा रहा है
  • दूर चर्च की दोपहर की घंटी बज रही है
  • यातायात में कार का हॉर्न बजना
  • गुस्साए बच्चे हताश होकर कांच तोड़ रहे हैं
  • एक पुराने जमाने का टाइपराइटर खट-खट कर रहा है
  • एक लड़की सबसे अधिक विक्षिप्त और घृणित दृश्य को देखकर चिल्ला रही है
  • दूर से ट्रेन की सीटी बज रही है

6 मल्टी इवेंट तुलना

टेक्स्ट विवरण बनाम ग्राउंड-ट्रुथ बनाम ऑडियोजेन बनाम ऑडियोएलडीएम बनाम ऑडियोएलडीएम2 बनाम टैंगो बनाम ऑफ्यूज़न

  • घड़ी की टिक-टिक के साथ घंटी बजती है और पृष्ठभूमि में टेलीविजन स्पीकर पर एक आदमी बोलता है, जिसके बाद धीमी घंटी बजती है
  • मोटर की भिनभिनाहट और गुनगुनाहट के साथ एक आदमी बोलता हुआ
  • जेट विमान के उड़ते ही मशीन गन की एक श्रृंखला और दो गोलियों की आवाज सुनाई देती है, जिसके बाद हल्का संगीत बजता है
  • औरत बोलती है, लड़की बोलती है, ताली बजती है, कर्कश आवाज आती है, उसके बाद हंसी आती है
  • कागज के टूटने, प्लास्टिक के चरमराने और फिर शौचालय के फ्लश की आवाज के बीच एक आदमी बात कर रहा है
  • बारिश हो रही है और पृष्ठभूमि में लोग बातें कर रहे हैं और हंस रहे हैं
  • लोग भारी कदमों से चलते हैं, रुकते हैं, पैर फिसलाते हैं, चलते हैं, रुकते हैं और फिर से चलना शुरू करते हैं

7 क्रॉस अटेंशन मैप तुलना

तुलना में शामिल हैं:
ऑफ्यूज़न-नो-प्रीट्रेन / ऑफ्यूज़न-डब्ल्यू-क्लिप / ऑफ्यूज़न-डब्ल्यू-क्लैप / ऑफ्यूज़न-डब्ल्यू-फ्लैंट5 / टैंगो।

8 टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर

उदाहरण:

  • बिल्ली के चिल्लाने से लेकर कार रेसिंग तक।
  • पक्षियों की चहचहाट से लेकर एम्बुलेंस के सायरन तक।
  • बच्चे के रोने से लेकर बिल्ली के म्याऊं-म्याऊं करने तक।

अन्य टिप्पणियां

  1. हम ऑडियो जनरेशन मॉडल के प्रशिक्षण और मूल्यांकन को आसान तुलना के लिए ओपन सोर्स करने के लिए अपना कोड GitHub पर साझा करेंगे।
  2. हम डेटा से संबंधित कॉपीराइट मुद्दों की पुष्टि कर रहे हैं, जिसके बाद पूर्व प्रशिक्षित मॉडल जारी किए जाएंगे।

भविष्य में सुधार

  • डेमो वेबसाइट और arXiv लिंक प्रकाशित करें।
  • ऑफ्यूज़न और ऑफ्यूज़न-फुल चेकपॉइंट प्रकाशित करें।
  • पाठ-निर्देशित शैली स्थानांतरण जोड़ें.
  • ऑडियो-टू-ऑडियो जनरेशन जोड़ें.
  • ऑडियो इनपेंटिंग जोड़ें.
  • ध्यान-आधारित शब्द स्वैप और पुनःवजन नियंत्रण (प्रॉम्प्ट2प्रॉम्प्ट-आधारित) जोड़ें।
  • ऑडियो सुपर-रिज़ॉल्यूशन जोड़ें.
  • ऑडियो-टू-ऑडियो, इनपेंटिंग, स्टाइल ट्रांसफर और सुपर-रेज़ोल्यूशन को एकीकृत करने वाला ग्रैडियो वेब एप्लिकेशन बनाएं।
  • डेटा प्रीप्रोसेसिंग और प्रशिक्षण कोड जोड़ें.

पावती

यह वेबसाइट यहां किए गए कार्य के आधार पर बनाई गई है ऑडियोएलडीएम GitHub.

सामान्य प्रश्न

  1. आफ्यूज़न क्या है?
    ऑफ्यूज़न एक अत्याधुनिक टेक्स्ट-टू-ऑडियो उत्पादन मॉडल है, जो पाठ्य संकेतों से उच्च गुणवत्ता वाला ऑडियो बनाने के लिए प्रसार मॉडल और बड़े भाषा मॉडल का लाभ उठाता है।
  2. टेक्स्ट-टू-ऑडियो जनरेशन कैसे काम करता है?
    यह प्रणाली एक अव्यक्त प्रसार मॉडल का उपयोग करके ऑडियो फीचर स्थानों में पाठ एम्बेडिंग को मैप करके पाठ्य विवरण को ऑडियो में बदल देती है, जिससे उच्च निष्ठा और सटीक संरेखण सुनिश्चित होता है।
  3. आफ्यूज़न की मुख्य विशेषताएं क्या हैं?
    ऑफ्यूज़न टेक्स्ट-टू-ऑडियो जेनरेशन, ऑडियो-टू-ऑडियो ट्रांसफॉर्मेशन, ऑडियो इनपेंटिंग और टेक्स्ट-गाइडेड ऑडियो स्टाइल ट्रांसफर का समर्थन करता है।
  4. इस मॉडल में प्रसार की क्या भूमिका है?
    प्रसार मॉडल पाठ्य इनपुट द्वारा निर्देशित रिवर्स प्रसार प्रक्रिया का पालन करके यादृच्छिक शोर को धीरे-धीरे सुसंगत ऑडियो संकेतों में बदलने में मदद करते हैं।
  5. क्या मॉडल ओपन सोर्स है?
    हां, कोड और मॉडल चेकप्वाइंट को ओपन-सोर्स बनाने का इरादा है, जिससे अनुसंधान समुदाय को परियोजना तक पहुंचने और उस पर काम करने की अनुमति मिल सके।
  6. ऑफ्यूज़न को चलाने के लिए कौन से हार्डवेयर की आवश्यकता है?
    मॉडल को एकल A6000 GPU पर प्रशिक्षित किया गया है; हालाँकि, आपके हार्डवेयर और विशिष्ट सेटअप के आधार पर प्रदर्शन भिन्न हो सकता है।
  7. मैं ऑफ्यूज़न के साथ ऑडियो कैसे उत्पन्न कर सकता हूँ?
    आप दिए गए अनुमान कोड को चला सकते हैं या अपने स्वयं के टेक्स्ट प्रॉम्प्ट से ऑडियो नमूने उत्पन्न करने के लिए कोलाब नोटबुक का उपयोग कर सकते हैं।
  8. ऑडियो इनपेंटिंग क्या है?
    ऑडियो इनपेंटिंग एक ऑडियो क्लिप के लुप्त भागों को भरने, निर्बाध परिवर्तन सुनिश्चित करने और समग्र ध्वनि अखंडता को बनाए रखने की प्रक्रिया है।
  9. क्या मैं इस मॉडल का उपयोग व्यावसायिक उद्देश्यों के लिए कर सकता हूँ?
    उपयोग के अधिकार मॉडल के लाइसेंस पर निर्भर करते हैं; कृपया वाणिज्यिक उपयोग के दिशा-निर्देशों के लिए रिपोजिटरी लाइसेंस और संलग्न दस्तावेज़ों की समीक्षा करें।
  10. मैं ऑफ्यूज़न परियोजना में कैसे योगदान कर सकता हूँ?
    आप समस्याओं की रिपोर्ट करके, सुधार का सुझाव देकर, या परियोजना के GitHub रिपोजिटरी के माध्यम से पुल अनुरोध प्रस्तुत करके योगदान कर सकते हैं।