طلقتان ناريتان تلاهما زقزقة العصافير

كلب ينبح

الناس يهتفون في الملعب بينما تضربهم صواعق الرعد والبرق

استكشف أحدث التقنيات تحويل النص إلى صوتالصوت إلى الصوتو الصوت في الرسم التقنيات التي تعتمد على الانتشار ونماذج اللغة الكبيرة.

1 الملاحة

2 نظرة عامة على الورقة

الانتشار: الاستفادة من قوة الانتشار ونماذج اللغة الكبيرة لتوليد النص إلى الصوت

جينلونغ شيويه، يايو دينغ، ينغمينغ جاو، يا لي
1، جامعة بكين للبريد والاتصالات، بكين، الصين

ورقة بحثية عن ArXiv | الكود على GitHub | وجه العناق

2.1 الملخص

لقد أدت التطورات الأخيرة في نماذج الانتشار ونماذج اللغة الكبيرة (LLMs) إلى دفع مجال AIGC بشكل كبير. تحويل النص إلى صوت (TTA)، وهو تطبيق AIGC مزدهر مصمم لتوليد الصوت من مطالبات اللغة الطبيعية، يجذب اهتمامًا متزايدًا. ومع ذلك، غالبًا ما تكافح دراسات TTA الحالية مع جودة التوليد ومحاذاة النص والصوت، وخاصة للمدخلات النصية المعقدة. مستوحى من نماذج انتشار النص إلى الصورة (T2I) الحديثة، نقدم Auffusion - وهو نظام TTA يتكيف مع أطر نموذج T2I لتوليد الصوت من خلال الاستفادة من نقاط القوة التوليدية المتأصلة والمحاذاة الدقيقة عبر الوسائط. تُظهر التقييمات الموضوعية والذاتية أن Auffusion يتفوق على مناهج TTA السابقة، حتى عند استخدام بيانات وموارد حسابية محدودة. تُظهر دراسات الاستئصال الشاملة وتصورات خريطة الانتباه المتقاطع المبتكرة محاذاة النص والصوت المتفوقة، مما يفيد المهام ذات الصلة مثل نقل نمط الصوت والرسم والتلاعبات الأخرى.

2.2 ملاحظة

  • يولد Auffusion تأثيرات صوتية مشروطة بالنص، والكلام البشري، والموسيقى.
  • يتم تدريب نموذج الانتشار الكامن (LDM) على وحدة معالجة رسومية واحدة من طراز A6000، استنادًا إلى الانتشار المستقر باستخدام الانتباه المتقاطع.
  • يتيح محاذاة النص والصوت القوية نقل نمط الصوت الموجه بالنص، والتلوين، والتلاعب بإعادة الترجيح/الاستبدال القائم على الاهتمام.

2.3 الشكل 1: نظرة عامة على بنية Auffusion

تتضمن عملية التدريب والاستدلال تحويلات ذهابًا وإيابًا بين أربع مساحات مميزة: الصوت، والمخطط الطيفي، والبكسل، والمساحة الكامنة. لاحظ أن شبكة U-Net يتم تهيئة نموذج LDM للنص إلى الصورة المدرب مسبقًا.

3 جدول المحتويات

4- توليد النص إلى الصوت

4.1 عينات قصيرة:

  • طلقتان ناريتان يتبعهما زقزقة طيور / كلب ينبح / الناس يهتفون في ملعب بينما تضربهم الرعد والبرق

4.2 التحكم في البيئة الصوتية:

  • رجل يتحدث في غرفة ضخمة / رجل يتحدث في غرفة صغيرة / رجل يتحدث في الاستوديو

4.3 مراقبة المواد:

  • تقطيع الطماطم على طاولة خشبية / تقطيع اللحوم على طاولة خشبية / تقطيع البطاطس على طاولة معدنية

4.4 التحكم في درجة الصوت:

  • موجة جيبية ذات درجة صوت منخفضة / موجة جيبية ذات درجة صوت متوسطة / موجة جيبية ذات درجة صوت عالية

4.5 التحكم في الترتيب الزمني:

  • سيارة سباق تمر وتختفي / طلقتان ناريتان يتبعهما طيور تطير بعيدًا وهي تغرد / صوت نقر طاولة خشبية يتبعه صوت سكب الماء

4.6 تحويل الملصق إلى صوت:

  • صفارة الإنذار / الرعد / أوينك
  • انفجار / تصفيق / ضرطة
  • منشار / ألعاب نارية / دجاجة، ديك
  • التوليد غير المشروط: "باطل"

5 جيل TTA مع مطالبة نصية ChatGPT

  • الطيور تغرد بصوت جميل في حديقة مزهرة
  • قطة صغيرة تموء لجذب الانتباه
  • ضحكات الجنيات السحرية تتردد في الغابة المسحورة
  • همسات ناعمة من قصة ما قبل النوم يتم سردها
  • قرد يضحك قبل أن تضربه قنبلة ذرية كبيرة على رأسه
  • قلم رصاص يكتب على مفكرة
  • رش الماء في البركة
  • عملات معدنية تصدر صوت رنين في حصالة نقود
  • طفل يصفر في الاستوديو
  • جرس كنيسة بعيد يدق في منتصف النهار
  • بوق السيارة ينطلق في حركة المرور
  • أطفال غاضبون يكسرون الزجاج بسبب الإحباط
  • آلة كاتبة قديمة الطراز تصدر صوت طقطقة
  • فتاة تصرخ عند رؤية أكثر منظر جنوني و حقير
  • صفارة القطار تنطلق في المسافة

6 مقارنة الأحداث المتعددة

أوصاف النصوص مقابل Ground-Truth مقابل AudioGen مقابل AudioLDM مقابل AudioLDM2 مقابل Tango مقابل Auffusion

  • رنين الجرس مع دقات الساعة ورجل يتحدث عبر مكبر صوت تلفزيوني في الخلفية، يليه رنين جرس مكتوم
  • طنين وهمهمة المحرك مع رجل يتحدث
  • سلسلة من إطلاق النار من مدافع رشاشة وطلقتين ناريتين أثناء تحليق طائرة نفاثة، يتبعها عزف موسيقى هادئة
  • تتحدث امرأة، وتتحدث فتاة، ويقاطعها تصفيق وضوضاء ناعقة، ثم يتبعها ضحك.
  • رجل يتحدث بينما تتجعد الورقة ثم يتلألأ البلاستيك ثم يتدفق الماء من المرحاض
  • يهطل المطر بينما يتحدث الناس ويضحكون في الخلفية
  • يمشي الناس بثقل، ثم يتوقفون، ثم يحركون أقدامهم، ثم يمشون، ثم يتوقفون، ثم يبدأون في المشي مرة أخرى

مقارنة 7 خرائط الانتباه المتقاطع

المقارنات تشمل:
تدفق بدون تدريب مسبق / تدفق مع مقطع / تدفق مع تصفيق / تدفق مع فلانت 5 / تانجو.

8 نقل نمط الصوت الموجه بالنص

أمثلة:

  • من صراخ القطط إلى سباق السيارات.
  • من زقزقة الطيور إلى صفارة سيارة الإسعاف.
  • من بكاء الطفل إلى مواء القطة.

تعليقات أخرى

  1. سوف نشارك الكود الخاص بنا على GitHub لفتح مصدر تدريب وتقييم نموذج إنشاء الصوت للمقارنة الأسهل.
  2. نحن نؤكد على مشكلات حقوق النشر المتعلقة بالبيانات، وبعد ذلك سيتم إصدار النماذج المدربة مسبقًا.

التحسينات المستقبلية

  • نشر موقع تجريبي ورابط arXiv.
  • نشر نقاط تفتيش Auffusion وAuffusion-Full.
  • إضافة نقل النمط الموجه بالنص.
  • إضافة توليد الصوت إلى الصوت.
  • إضافة الصوت في اللوحة.
  • أضف خاصية تبديل الكلمات القائمة على الاهتمام والتحكم في إعادة الوزن (المستند إلى prompt2prompt).
  • إضافة دقة صوتية فائقة.
  • قم ببناء تطبيق ويب Gradio يدمج الصوت إلى الصوت، والرسم، ونقل الأسلوب، والدقة الفائقة.
  • أضف معالجة مسبقة للبيانات وكود التدريب.

الإقرار

تم إنشاء هذا الموقع بناءً على العمل في AudioLDM جيثب.

التعليمات

  1. ما هو الافراز؟
    Auffusion هو نموذج متطور لتوليد النص إلى الصوت والذي يستفيد من نماذج الانتشار ونماذج اللغة الكبيرة لإنشاء صوت عالي الجودة من المطالبات النصية.
  2. كيف تعمل عملية تحويل النص إلى صوت؟
    يقوم النظام بتحويل الأوصاف النصية إلى صوت عن طريق تعيين تضمينات النصوص في مساحات ميزات الصوت باستخدام نموذج الانتشار الكامن، مما يضمن الدقة العالية والمحاذاة الدقيقة.
  3. ما هي الميزات الأساسية لـ Auffusion؟
    يدعم Auffusion إنشاء النص إلى الصوت، وتحويل الصوت إلى الصوت، وتلوين الصوت، ونقل نمط الصوت الموجه بالنص.
  4. ما هو الدور الذي يلعبه الانتشار في هذا النموذج؟
    تساعد نماذج الانتشار في تحويل الضوضاء العشوائية تدريجيًا إلى إشارات صوتية متماسكة من خلال اتباع عملية الانتشار العكسي الموجهة بواسطة المدخلات النصية.
  5. هل النموذج مفتوح المصدر؟
    نعم، من المفترض أن تكون نقاط تفتيش الكود والنموذج مفتوحة المصدر، مما يسمح لمجتمع البحث بالوصول إلى المشروع والبناء عليه.
  6. ما هي الأجهزة المطلوبة لتشغيل Auffusion؟
    تم تدريب النموذج على وحدة معالجة رسومية واحدة من طراز A6000؛ ومع ذلك، قد يختلف الأداء وفقًا للأجهزة والإعداد المحدد لديك.
  7. كيف يمكنني تجربة إنشاء الصوت باستخدام Auffusion؟
    يمكنك تشغيل كود الاستدلال المقدم أو استخدام دفاتر Colab لإنشاء عينات صوتية من مطالبات النص الخاصة بك.
  8. ما هو Audio InPainting؟
    Audio InPainting هي عملية ملء الأجزاء المفقودة في مقطع صوتي، مما يضمن انتقالات سلسة والحفاظ على سلامة الصوت بشكل عام.
  9. هل يمكنني استخدام النموذج لأغراض تجارية؟
    تعتمد حقوق الاستخدام على ترخيص النموذج؛ يرجى مراجعة ترخيص المستودع والوثائق المصاحبة لإرشادات الاستخدام التجاري.
  10. كيف يمكنني المساهمة في مشروع Auffusion؟
    يمكنك المساهمة من خلال الإبلاغ عن المشكلات، أو اقتراح التحسينات، أو إرسال طلبات السحب عبر مستودع GitHub الخاص بالمشروع.