Auffusion: โมเดลการสร้างข้อความเป็นเสียงรุ่นใหม่

เสียงปืนดังขึ้น 2 นัด ตามมาด้วยเสียงนกร้อง

สุนัขเห่า

ผู้คนโห่ร้องในสนามกีฬาพร้อมเสียงฟ้าร้องฟ้าผ่า

สำรวจความทันสมัย การแปลงข้อความเป็นเสียง, เสียงต่อเสียง, และ เสียงในภาพวาด เทคนิคที่ขับเคลื่อนด้วยการแพร่กระจายและโมเดลภาษาขนาดใหญ่

1 การนำทาง

2 ภาพรวมเอกสาร

Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง

จินหลง เสวี่ย, หยาเยว่เติ้ง, หยิงหมิง เกา, หยาลี่
1. มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง ปักกิ่ง ประเทศจีน

เอกสารเกี่ยวกับ ArXiv | โค้ดบน GitHub | กอดหน้า

2.1 บทคัดย่อ

ความก้าวหน้าล่าสุดในโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่ (LLM) ได้ส่งเสริมสาขา AIGC อย่างมีนัยสำคัญ การแปลงข้อความเป็นเสียง (TTA) ซึ่งเป็นแอปพลิเคชัน AIGC ที่กำลังเติบโตอย่างรวดเร็วซึ่งออกแบบมาเพื่อสร้างเสียงจากคำสั่งภาษาธรรมชาติ กำลังได้รับความสนใจเพิ่มมากขึ้น อย่างไรก็ตาม การศึกษา TTA ที่มีอยู่มักประสบปัญหาในการสร้างคุณภาพและการจัดตำแหน่งข้อความและเสียง โดยเฉพาะอย่างยิ่งสำหรับอินพุตข้อความที่ซับซ้อน โดยได้รับแรงบันดาลใจจากโมเดลการแพร่กระจาย Text-to-Image (T2I) ที่ทันสมัย เราขอแนะนำ Auffusion ซึ่งเป็นระบบ TTA ที่ปรับกรอบงานของโมเดล T2I สำหรับการสร้างเสียงโดยใช้ประโยชน์จากจุดแข็งในการสร้างที่มีอยู่และการจัดตำแหน่งข้ามโหมดที่แม่นยำ การประเมินเชิงวัตถุวิสัยและอัตนัยแสดงให้เห็นว่า Auffusion เหนือกว่าแนวทาง TTA ก่อนหน้านี้ แม้ว่าจะใช้ข้อมูลและทรัพยากรการคำนวณที่จำกัดก็ตาม การศึกษาการลบอย่างครอบคลุมและการแสดงภาพแผนที่ความสนใจข้ามที่สร้างสรรค์ยิ่งขึ้นแสดงให้เห็นถึงการจัดตำแหน่งข้อความและเสียงที่เหนือกว่า ซึ่งเป็นประโยชน์ต่องานที่เกี่ยวข้อง เช่น การถ่ายโอนรูปแบบเสียง การระบายสีทับ และการจัดการอื่นๆ

2.2 หมายเหตุ

Auffusion จะสร้างเอฟเฟกต์เสียงตามเงื่อนไขของข้อความ คำพูดของมนุษย์ และเสียงดนตรี
แบบจำลองการแพร่กระจายแฝง (LDM) ได้รับการฝึกอบรมบน GPU A6000 ตัวเดียว โดยอาศัยการแพร่กระจายที่เสถียรโดยใช้การให้ความสนใจแบบไขว้
การจัดตำแหน่งข้อความและเสียงที่แข็งแกร่งทำให้สามารถถ่ายโอนรูปแบบเสียง การแก้ไข และการกำหนดน้ำหนัก/แทนที่ตามความสนใจได้

2.3 รูปที่ 1: ภาพรวมของสถาปัตยกรรมการแพร่กระจาย

กระบวนการฝึกอบรมและอนุมานเกี่ยวข้องกับการแปลงไปมาระหว่างพื้นที่คุณลักษณะทั้งสี่: เสียง สเปกโตรแกรม พิกเซล และพื้นที่แฝง โปรดทราบว่า U-Net ได้รับการเริ่มต้นด้วย LDM แปลงข้อความเป็นรูปภาพที่ฝึกอบรมไว้ล่วงหน้า

3 สารบัญ

4 การสร้างข้อความเป็นเสียง

4.1 ตัวอย่างสั้น ๆ :

เสียงปืนดังขึ้น 2 นัด ตามด้วยเสียงนกร้อง / สุนัขเห่า / ผู้คนโห่ร้องในสนามกีฬา ท่ามกลางเสียงฟ้าร้องและฟ้าผ่า

4.2 การควบคุมสภาพแวดล้อมด้านเสียง:

ชายคนหนึ่งกำลังพูดในห้องขนาดใหญ่ / ชายคนหนึ่งกำลังพูดในห้องเล็ก ๆ / ชายคนหนึ่งกำลังพูดในสตูดิโอ

4.3 การควบคุมวัสดุ:

การสับมะเขือเทศบนโต๊ะไม้ / การสับเนื้อบนโต๊ะไม้ / การสับมันฝรั่งบนโต๊ะโลหะ

4.4 การควบคุมระดับเสียง:

คลื่นไซน์พิทช์ต่ำ / คลื่นไซน์พิทช์กลาง / คลื่นไซน์พิทช์สูง

4.5 การควบคุมการสั่งการตามเวลา:

รถแข่งกำลังขับผ่านและหายไป / เสียงปืนดังขึ้นสองนัดตามด้วยเสียงนกร้องบินหนีไป / เสียงเคาะโต๊ะไม้ดังขึ้นตามด้วยเสียงน้ำไหล

4.6 การสร้างฉลากเป็นเสียง:

ไซเรน / ฟ้าร้อง / อู๊ด
ระเบิด / เสียงปรบมือ / เสียงตด
เลื่อยยนต์ / พลุ / ไก่, ไก่ตัวผู้
การสร้างแบบไม่มีเงื่อนไข: "โมฆะ"

การสร้าง TTA 5 ครั้งพร้อมข้อความแจ้งเตือน ChatGPT

นกน้อยร้องเพลงอย่างไพเราะในสวนดอกไม้
ลูกแมวร้องเหมียวเพื่อเรียกร้องความสนใจ
เสียงหัวเราะของนางฟ้าวิเศษก้องไปทั่วป่าต้องมนตร์
เสียงกระซิบเบาๆ ของนิทานก่อนนอนที่ถูกเล่า
ลิงหัวเราะก่อนโดนระเบิดปรมาณูลูกใหญ่ตีหัว
ดินสอขีดเขียนบนสมุดบันทึก
เสียงน้ำกระเซ็นในบ่อน้ำ
เหรียญกระทบกันในกระปุกออมสิน
เด็กคนหนึ่งกำลังเป่านกหวีดอยู่ในสตูดิโอ
เสียงระฆังโบสถ์ดังอยู่ไกลๆ ตอนเที่ยงวัน
เสียงแตรรถดังขณะจราจรติดขัด
เด็ก ๆ โกรธจนกระจกแตกเพราะความหงุดหงิด
เครื่องพิมพ์ดีดสมัยเก่าส่งเสียงดังแก๊กๆ
หญิงสาวกรี๊ดเมื่อเห็นรูปอันน่าสยดสยองและชั่วร้ายที่สุด
เสียงหวูดรถไฟเป่าอยู่ไกลๆ

การเปรียบเทียบเหตุการณ์หลายรายการ 6 รายการ

คำอธิบายข้อความ เทียบกับ Ground-Truth เทียบกับ AudioGen เทียบกับ AudioLDM เทียบกับ AudioLDM2 เทียบกับ Tango เทียบกับ Auffusion

เสียงระฆังดังขึ้นพร้อมกับเสียงนาฬิกาที่เดินนับเวลา และชายคนหนึ่งกำลังพูดคุยผ่านลำโพงโทรทัศน์ที่อยู่ด้านหลัง ตามมาด้วยเสียงระฆังที่ดังไม่ชัด
เสียงเครื่องยนต์ดังหึ่งๆ พร้อมกับเสียงผู้ชายกำลังพูด
เสียงปืนกลดังขึ้นหลายนัดและเสียงปืนอีก 2 นัดดังขึ้นขณะที่เครื่องบินเจ็ตกำลังบินผ่าน พร้อมกับเสียงเพลงบรรเลงเบาๆ
ผู้หญิงพูด เด็กผู้หญิงพูด เสียงปรบมือ เสียงแหบพร่า ขัดจังหวะด้วยเสียงหัวเราะ
ชายคนหนึ่งกำลังพูดในขณะที่กระดาษยับยู่ยี่ตามด้วยพลาสติกที่ดังเอี๊ยดอ๊าด จากนั้นก็มีคนกดชักโครก
ฝนตกลงมาขณะที่ผู้คนพูดคุยและหัวเราะกันอยู่เบื้องหลัง
คนเดินกันอย่างหนัก หยุดพัก เลื่อนเท้า เดิน หยุด แล้วเริ่มเดินอีกครั้ง

การเปรียบเทียบแผนที่ความสนใจแบบไขว้ 7

การเปรียบเทียบรวมถึง:
การผสมแบบไม่ต้องเตรียมล่วงหน้า / การผสมแบบมีคลิป / การผสมแบบมีปรบมือ / การผสมแบบมีฟลานท์5 / แทงโก้

8 การถ่ายโอนสไตล์เสียงตามข้อความ

ตัวอย่าง:

จากเสียงแมวกรี๊ดไปจนถึงการแข่งรถ
จากเสียงนกเจื้อยแจ้วไปจนถึงเสียงไซเรนรถพยาบาล
จากเสียงทารกร้องไห้จนถึงเสียงแมวร้องเหมียว

ความคิดเห็นอื่น ๆ

เราจะแบ่งปันโค้ดของเราบน GitHub เพื่อเปิดซอร์สการฝึกอบรมและการประเมินโมเดลการสร้างเสียงเพื่อการเปรียบเทียบที่ง่ายขึ้น
เรากำลังยืนยันปัญหาลิขสิทธิ์ที่เกี่ยวข้องกับข้อมูล หลังจากนั้นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะได้รับการเผยแพร่

การปรับปรุงในอนาคต

เผยแพร่เว็บไซต์สาธิตและลิงค์ arXiv
เผยแพร่จุดตรวจสอบ Auffusion และ Auffusion-Full
เพิ่มการถ่ายโอนสไตล์ตามข้อความ
เพิ่มการสร้างเสียงเป็นเสียง
เพิ่มการลงสีเสียง
เพิ่มการสลับคำตามความสนใจและการควบคุมน้ำหนักใหม่ (ตาม prompt2prompt)
เพิ่มคุณภาพเสียงระดับซุปเปอร์เรดี
สร้างแอปพลิเคชันเว็บ Gradio ที่ผสานการทำงานเสียงกับเสียง การทาสีทับ การถ่ายโอนสไตล์ และความละเอียดสูงพิเศษ
เพิ่มโค้ดการประมวลผลข้อมูลเบื้องต้นและการฝึกอบรม

การแสดงความยอมรับ

เว็บไซต์นี้ถูกสร้างขึ้นจากผลงานของ GitHub ของ AudioLDM.

คำถามที่พบบ่อย

Auffusion คืออะไร?
Auffusion คือโมเดลการสร้างข้อความเป็นเสียงที่ล้ำสมัยซึ่งใช้ประโยชน์จากโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อสร้างเสียงคุณภาพสูงจากข้อความแจ้งเตือน
การสร้างข้อความเป็นเสียงทำงานอย่างไร
ระบบจะแปลงคำอธิบายข้อความให้เป็นเสียงโดยการแมปข้อความที่ฝังไว้ในพื้นที่คุณลักษณะเสียงโดยใช้แบบจำลองการแพร่กระจายแฝง ช่วยให้มั่นใจถึงความเที่ยงตรงสูงและการจัดตำแหน่งที่แม่นยำ
คุณสมบัติหลักของ Auffusion มีอะไรบ้าง?
Auffusion รองรับการสร้างข้อความเป็นเสียง การแปลงเสียงเป็นเสียง การแก้ไขเสียง และการถ่ายโอนสไตล์เสียงโดยใช้ข้อความ
การแพร่กระจายมีบทบาทอย่างไรในโมเดลนี้?
แบบจำลองการแพร่กระจายช่วยในการแปลงสัญญาณรบกวนแบบสุ่มเป็นสัญญาณเสียงที่สอดคล้องกันโดยทำตามขั้นตอนการแพร่กระจายย้อนกลับที่ควบคุมโดยอินพุตข้อความ
โมเดลนี้เป็นโอเพนซอร์สหรือเปล่า?
ใช่ จุดตรวจสอบโค้ดและโมเดลได้รับการออกแบบให้เป็นโอเพนซอร์ส ช่วยให้ชุมชนนักวิจัยสามารถเข้าถึงและสร้างโครงการได้
ต้องใช้ฮาร์ดแวร์ใดบ้างในการรัน Auffusion?
โมเดลนี้ได้รับการฝึกบน GPU A6000 ตัวเดียว อย่างไรก็ตาม ประสิทธิภาพอาจแตกต่างกันไป ขึ้นอยู่กับฮาร์ดแวร์และการตั้งค่าเฉพาะของคุณ
ฉันจะลองสร้างเสียงด้วย Auffusion ได้อย่างไร
คุณสามารถรันโค้ดอนุมานที่ให้มา หรือใช้สมุดบันทึก Colab เพื่อสร้างตัวอย่างเสียงจากข้อความแจ้งของคุณเองได้
Audio InPainting คืออะไร?
Audio InPainting คือกระบวนการเติมส่วนที่หายไปของคลิปเสียง ช่วยให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่นและรักษาความสมบูรณ์ของเสียงโดยรวมไว้
ฉันสามารถใช้โมเดลเพื่อวัตถุประสงค์เชิงพาณิชย์ได้หรือไม่?
สิทธิ์การใช้งานขึ้นอยู่กับใบอนุญาตของโมเดล โปรดตรวจสอบใบอนุญาตที่เก็บข้อมูลและเอกสารประกอบเพื่อดูแนวทางการใช้งานเชิงพาณิชย์
ฉันสามารถมีส่วนร่วมกับโครงการ Auffusion ได้อย่างไร?
คุณสามารถมีส่วนร่วมได้โดยการรายงานปัญหา เสนอแนะการปรับปรุง หรือส่งคำขอการดึงข้อมูลผ่านที่เก็บ GitHub ของโครงการ