เสียงปืนดังขึ้น 2 นัด ตามมาด้วยเสียงนกร้อง

สุนัขเห่า

ผู้คนโห่ร้องในสนามกีฬาพร้อมเสียงฟ้าร้องฟ้าผ่า

สำรวจความทันสมัย การแปลงข้อความเป็นเสียงเสียงต่อเสียง, และ เสียงในภาพวาด เทคนิคที่ขับเคลื่อนด้วยการแพร่กระจายและโมเดลภาษาขนาดใหญ่

1 การนำทาง

2 ภาพรวมเอกสาร

Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง

จินหลง เสวี่ย, หยาเยว่เติ้ง, หยิงหมิง เกา, หยาลี่
1. มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง ปักกิ่ง ประเทศจีน

เอกสารเกี่ยวกับ ArXiv | โค้ดบน GitHub | กอดหน้า

2.1 บทคัดย่อ

ความก้าวหน้าล่าสุดในโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่ (LLM) ได้ส่งเสริมสาขา AIGC อย่างมีนัยสำคัญ การแปลงข้อความเป็นเสียง (TTA) ซึ่งเป็นแอปพลิเคชัน AIGC ที่กำลังเติบโตอย่างรวดเร็วซึ่งออกแบบมาเพื่อสร้างเสียงจากคำสั่งภาษาธรรมชาติ กำลังได้รับความสนใจเพิ่มมากขึ้น อย่างไรก็ตาม การศึกษา TTA ที่มีอยู่มักประสบปัญหาในการสร้างคุณภาพและการจัดตำแหน่งข้อความและเสียง โดยเฉพาะอย่างยิ่งสำหรับอินพุตข้อความที่ซับซ้อน โดยได้รับแรงบันดาลใจจากโมเดลการแพร่กระจาย Text-to-Image (T2I) ที่ทันสมัย เราขอแนะนำ Auffusion ซึ่งเป็นระบบ TTA ที่ปรับกรอบงานของโมเดล T2I สำหรับการสร้างเสียงโดยใช้ประโยชน์จากจุดแข็งในการสร้างที่มีอยู่และการจัดตำแหน่งข้ามโหมดที่แม่นยำ การประเมินเชิงวัตถุวิสัยและอัตนัยแสดงให้เห็นว่า Auffusion เหนือกว่าแนวทาง TTA ก่อนหน้านี้ แม้ว่าจะใช้ข้อมูลและทรัพยากรการคำนวณที่จำกัดก็ตาม การศึกษาการลบอย่างครอบคลุมและการแสดงภาพแผนที่ความสนใจข้ามที่สร้างสรรค์ยิ่งขึ้นแสดงให้เห็นถึงการจัดตำแหน่งข้อความและเสียงที่เหนือกว่า ซึ่งเป็นประโยชน์ต่องานที่เกี่ยวข้อง เช่น การถ่ายโอนรูปแบบเสียง การระบายสีทับ และการจัดการอื่นๆ

2.2 หมายเหตุ

  • Auffusion จะสร้างเอฟเฟกต์เสียงตามเงื่อนไขของข้อความ คำพูดของมนุษย์ และเสียงดนตรี
  • แบบจำลองการแพร่กระจายแฝง (LDM) ได้รับการฝึกอบรมบน GPU A6000 ตัวเดียว โดยอาศัยการแพร่กระจายที่เสถียรโดยใช้การให้ความสนใจแบบไขว้
  • การจัดตำแหน่งข้อความและเสียงที่แข็งแกร่งทำให้สามารถถ่ายโอนรูปแบบเสียง การแก้ไข และการกำหนดน้ำหนัก/แทนที่ตามความสนใจได้

2.3 รูปที่ 1: ภาพรวมของสถาปัตยกรรมการแพร่กระจาย

กระบวนการฝึกอบรมและอนุมานเกี่ยวข้องกับการแปลงไปมาระหว่างพื้นที่คุณลักษณะทั้งสี่: เสียง สเปกโตรแกรม พิกเซล และพื้นที่แฝง โปรดทราบว่า U-Net ได้รับการเริ่มต้นด้วย LDM แปลงข้อความเป็นรูปภาพที่ฝึกอบรมไว้ล่วงหน้า

3 สารบัญ

4 การสร้างข้อความเป็นเสียง

4.1 ตัวอย่างสั้น ๆ :

  • เสียงปืนดังขึ้น 2 นัด ตามด้วยเสียงนกร้อง / สุนัขเห่า / ผู้คนโห่ร้องในสนามกีฬา ท่ามกลางเสียงฟ้าร้องและฟ้าผ่า

4.2 การควบคุมสภาพแวดล้อมด้านเสียง:

  • ชายคนหนึ่งกำลังพูดในห้องขนาดใหญ่ / ชายคนหนึ่งกำลังพูดในห้องเล็ก ๆ / ชายคนหนึ่งกำลังพูดในสตูดิโอ

4.3 การควบคุมวัสดุ:

  • การสับมะเขือเทศบนโต๊ะไม้ / การสับเนื้อบนโต๊ะไม้ / การสับมันฝรั่งบนโต๊ะโลหะ

4.4 การควบคุมระดับเสียง:

  • คลื่นไซน์พิทช์ต่ำ / คลื่นไซน์พิทช์กลาง / คลื่นไซน์พิทช์สูง

4.5 การควบคุมการสั่งการตามเวลา:

  • รถแข่งกำลังขับผ่านและหายไป / เสียงปืนดังขึ้นสองนัดตามด้วยเสียงนกร้องบินหนีไป / เสียงเคาะโต๊ะไม้ดังขึ้นตามด้วยเสียงน้ำไหล

4.6 การสร้างฉลากเป็นเสียง:

  • ไซเรน / ฟ้าร้อง / อู๊ด
  • ระเบิด / เสียงปรบมือ / เสียงตด
  • เลื่อยยนต์ / พลุ / ไก่, ไก่ตัวผู้
  • การสร้างแบบไม่มีเงื่อนไข: "โมฆะ"

การสร้าง TTA 5 ครั้งพร้อมข้อความแจ้งเตือน ChatGPT

  • นกน้อยร้องเพลงอย่างไพเราะในสวนดอกไม้
  • ลูกแมวร้องเหมียวเพื่อเรียกร้องความสนใจ
  • เสียงหัวเราะของนางฟ้าวิเศษก้องไปทั่วป่าต้องมนตร์
  • เสียงกระซิบเบาๆ ของนิทานก่อนนอนที่ถูกเล่า
  • ลิงหัวเราะก่อนโดนระเบิดปรมาณูลูกใหญ่ตีหัว
  • ดินสอขีดเขียนบนสมุดบันทึก
  • เสียงน้ำกระเซ็นในบ่อน้ำ
  • เหรียญกระทบกันในกระปุกออมสิน
  • เด็กคนหนึ่งกำลังเป่านกหวีดอยู่ในสตูดิโอ
  • เสียงระฆังโบสถ์ดังอยู่ไกลๆ ตอนเที่ยงวัน
  • เสียงแตรรถดังขณะจราจรติดขัด
  • เด็ก ๆ โกรธจนกระจกแตกเพราะความหงุดหงิด
  • เครื่องพิมพ์ดีดสมัยเก่าส่งเสียงดังแก๊กๆ
  • หญิงสาวกรี๊ดเมื่อเห็นรูปอันน่าสยดสยองและชั่วร้ายที่สุด
  • เสียงหวูดรถไฟเป่าอยู่ไกลๆ

การเปรียบเทียบเหตุการณ์หลายรายการ 6 รายการ

คำอธิบายข้อความ เทียบกับ Ground-Truth เทียบกับ AudioGen เทียบกับ AudioLDM เทียบกับ AudioLDM2 เทียบกับ Tango เทียบกับ Auffusion

  • เสียงระฆังดังขึ้นพร้อมกับเสียงนาฬิกาที่เดินนับเวลา และชายคนหนึ่งกำลังพูดคุยผ่านลำโพงโทรทัศน์ที่อยู่ด้านหลัง ตามมาด้วยเสียงระฆังที่ดังไม่ชัด
  • เสียงเครื่องยนต์ดังหึ่งๆ พร้อมกับเสียงผู้ชายกำลังพูด
  • เสียงปืนกลดังขึ้นหลายนัดและเสียงปืนอีก 2 นัดดังขึ้นขณะที่เครื่องบินเจ็ตกำลังบินผ่าน พร้อมกับเสียงเพลงบรรเลงเบาๆ
  • ผู้หญิงพูด เด็กผู้หญิงพูด เสียงปรบมือ เสียงแหบพร่า ขัดจังหวะด้วยเสียงหัวเราะ
  • ชายคนหนึ่งกำลังพูดในขณะที่กระดาษยับยู่ยี่ตามด้วยพลาสติกที่ดังเอี๊ยดอ๊าด จากนั้นก็มีคนกดชักโครก
  • ฝนตกลงมาขณะที่ผู้คนพูดคุยและหัวเราะกันอยู่เบื้องหลัง
  • คนเดินกันอย่างหนัก หยุดพัก เลื่อนเท้า เดิน หยุด แล้วเริ่มเดินอีกครั้ง

การเปรียบเทียบแผนที่ความสนใจแบบไขว้ 7

การเปรียบเทียบรวมถึง:
การผสมแบบไม่ต้องเตรียมล่วงหน้า / การผสมแบบมีคลิป / การผสมแบบมีปรบมือ / การผสมแบบมีฟลานท์5 / แทงโก้

8 การถ่ายโอนสไตล์เสียงตามข้อความ

ตัวอย่าง:

  • จากเสียงแมวกรี๊ดไปจนถึงการแข่งรถ
  • จากเสียงนกเจื้อยแจ้วไปจนถึงเสียงไซเรนรถพยาบาล
  • จากเสียงทารกร้องไห้จนถึงเสียงแมวร้องเหมียว

ความคิดเห็นอื่น ๆ

  1. เราจะแบ่งปันโค้ดของเราบน GitHub เพื่อเปิดซอร์สการฝึกอบรมและการประเมินโมเดลการสร้างเสียงเพื่อการเปรียบเทียบที่ง่ายขึ้น
  2. เรากำลังยืนยันปัญหาลิขสิทธิ์ที่เกี่ยวข้องกับข้อมูล หลังจากนั้นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะได้รับการเผยแพร่

การปรับปรุงในอนาคต

  • เผยแพร่เว็บไซต์สาธิตและลิงค์ arXiv
  • เผยแพร่จุดตรวจสอบ Auffusion และ Auffusion-Full
  • เพิ่มการถ่ายโอนสไตล์ตามข้อความ
  • เพิ่มการสร้างเสียงเป็นเสียง
  • เพิ่มการลงสีเสียง
  • เพิ่มการสลับคำตามความสนใจและการควบคุมน้ำหนักใหม่ (ตาม prompt2prompt)
  • เพิ่มคุณภาพเสียงระดับซุปเปอร์เรดี
  • สร้างแอปพลิเคชันเว็บ Gradio ที่ผสานการทำงานเสียงกับเสียง การทาสีทับ การถ่ายโอนสไตล์ และความละเอียดสูงพิเศษ
  • เพิ่มโค้ดการประมวลผลข้อมูลเบื้องต้นและการฝึกอบรม

การแสดงความยอมรับ

เว็บไซต์นี้ถูกสร้างขึ้นจากผลงานของ GitHub ของ AudioLDM.

คำถามที่พบบ่อย

  1. Auffusion คืออะไร?
    Auffusion คือโมเดลการสร้างข้อความเป็นเสียงที่ล้ำสมัยซึ่งใช้ประโยชน์จากโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อสร้างเสียงคุณภาพสูงจากข้อความแจ้งเตือน
  2. การสร้างข้อความเป็นเสียงทำงานอย่างไร
    ระบบจะแปลงคำอธิบายข้อความให้เป็นเสียงโดยการแมปข้อความที่ฝังไว้ในพื้นที่คุณลักษณะเสียงโดยใช้แบบจำลองการแพร่กระจายแฝง ช่วยให้มั่นใจถึงความเที่ยงตรงสูงและการจัดตำแหน่งที่แม่นยำ
  3. คุณสมบัติหลักของ Auffusion มีอะไรบ้าง?
    Auffusion รองรับการสร้างข้อความเป็นเสียง การแปลงเสียงเป็นเสียง การแก้ไขเสียง และการถ่ายโอนสไตล์เสียงโดยใช้ข้อความ
  4. การแพร่กระจายมีบทบาทอย่างไรในโมเดลนี้?
    แบบจำลองการแพร่กระจายช่วยในการแปลงสัญญาณรบกวนแบบสุ่มเป็นสัญญาณเสียงที่สอดคล้องกันโดยทำตามขั้นตอนการแพร่กระจายย้อนกลับที่ควบคุมโดยอินพุตข้อความ
  5. โมเดลนี้เป็นโอเพนซอร์สหรือเปล่า?
    ใช่ จุดตรวจสอบโค้ดและโมเดลได้รับการออกแบบให้เป็นโอเพนซอร์ส ช่วยให้ชุมชนนักวิจัยสามารถเข้าถึงและสร้างโครงการได้
  6. ต้องใช้ฮาร์ดแวร์ใดบ้างในการรัน Auffusion?
    โมเดลนี้ได้รับการฝึกบน GPU A6000 ตัวเดียว อย่างไรก็ตาม ประสิทธิภาพอาจแตกต่างกันไป ขึ้นอยู่กับฮาร์ดแวร์และการตั้งค่าเฉพาะของคุณ
  7. ฉันจะลองสร้างเสียงด้วย Auffusion ได้อย่างไร
    คุณสามารถรันโค้ดอนุมานที่ให้มา หรือใช้สมุดบันทึก Colab เพื่อสร้างตัวอย่างเสียงจากข้อความแจ้งของคุณเองได้
  8. Audio InPainting คืออะไร?
    Audio InPainting คือกระบวนการเติมส่วนที่หายไปของคลิปเสียง ช่วยให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่นและรักษาความสมบูรณ์ของเสียงโดยรวมไว้
  9. ฉันสามารถใช้โมเดลเพื่อวัตถุประสงค์เชิงพาณิชย์ได้หรือไม่?
    สิทธิ์การใช้งานขึ้นอยู่กับใบอนุญาตของโมเดล โปรดตรวจสอบใบอนุญาตที่เก็บข้อมูลและเอกสารประกอบเพื่อดูแนวทางการใช้งานเชิงพาณิชย์
  10. ฉันสามารถมีส่วนร่วมกับโครงการ Auffusion ได้อย่างไร?
    คุณสามารถมีส่วนร่วมได้โดยการรายงานปัญหา เสนอแนะการปรับปรุง หรือส่งคำขอการดึงข้อมูลผ่านที่เก็บ GitHub ของโครงการ