เสียงปืนดังขึ้น 2 นัด ตามมาด้วยเสียงนกร้อง
สุนัขเห่า
ผู้คนโห่ร้องในสนามกีฬาพร้อมเสียงฟ้าร้องฟ้าผ่า
สำรวจความทันสมัย การแปลงข้อความเป็นเสียง, เสียงต่อเสียง, และ เสียงในภาพวาด เทคนิคที่ขับเคลื่อนด้วยการแพร่กระจายและโมเดลภาษาขนาดใหญ่
1 การนำทาง
- Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
 - Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
 
2 ภาพรวมเอกสาร
Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
จินหลง เสวี่ย, หยาเยว่เติ้ง, หยิงหมิง เกา, หยาลี่
1. มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง ปักกิ่ง ประเทศจีน
เอกสารเกี่ยวกับ ArXiv | โค้ดบน GitHub | กอดหน้า
2.1 บทคัดย่อ
ความก้าวหน้าล่าสุดในโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่ (LLM) ได้ส่งเสริมสาขา AIGC อย่างมีนัยสำคัญ การแปลงข้อความเป็นเสียง (TTA) ซึ่งเป็นแอปพลิเคชัน AIGC ที่กำลังเติบโตอย่างรวดเร็วซึ่งออกแบบมาเพื่อสร้างเสียงจากคำสั่งภาษาธรรมชาติ กำลังได้รับความสนใจเพิ่มมากขึ้น อย่างไรก็ตาม การศึกษา TTA ที่มีอยู่มักประสบปัญหาในการสร้างคุณภาพและการจัดตำแหน่งข้อความและเสียง โดยเฉพาะอย่างยิ่งสำหรับอินพุตข้อความที่ซับซ้อน โดยได้รับแรงบันดาลใจจากโมเดลการแพร่กระจาย Text-to-Image (T2I) ที่ทันสมัย เราขอแนะนำ Auffusion ซึ่งเป็นระบบ TTA ที่ปรับกรอบงานของโมเดล T2I สำหรับการสร้างเสียงโดยใช้ประโยชน์จากจุดแข็งในการสร้างที่มีอยู่และการจัดตำแหน่งข้ามโหมดที่แม่นยำ การประเมินเชิงวัตถุวิสัยและอัตนัยแสดงให้เห็นว่า Auffusion เหนือกว่าแนวทาง TTA ก่อนหน้านี้ แม้ว่าจะใช้ข้อมูลและทรัพยากรการคำนวณที่จำกัดก็ตาม การศึกษาการลบอย่างครอบคลุมและการแสดงภาพแผนที่ความสนใจข้ามที่สร้างสรรค์ยิ่งขึ้นแสดงให้เห็นถึงการจัดตำแหน่งข้อความและเสียงที่เหนือกว่า ซึ่งเป็นประโยชน์ต่องานที่เกี่ยวข้อง เช่น การถ่ายโอนรูปแบบเสียง การระบายสีทับ และการจัดการอื่นๆ
2.2 หมายเหตุ
- Auffusion จะสร้างเอฟเฟกต์เสียงตามเงื่อนไขของข้อความ คำพูดของมนุษย์ และเสียงดนตรี
 - แบบจำลองการแพร่กระจายแฝง (LDM) ได้รับการฝึกอบรมบน GPU A6000 ตัวเดียว โดยอาศัยการแพร่กระจายที่เสถียรโดยใช้การให้ความสนใจแบบไขว้
 - การจัดตำแหน่งข้อความและเสียงที่แข็งแกร่งทำให้สามารถถ่ายโอนรูปแบบเสียง การแก้ไข และการกำหนดน้ำหนัก/แทนที่ตามความสนใจได้
 
2.3 รูปที่ 1: ภาพรวมของสถาปัตยกรรมการแพร่กระจาย
กระบวนการฝึกอบรมและอนุมานเกี่ยวข้องกับการแปลงไปมาระหว่างพื้นที่คุณลักษณะทั้งสี่: เสียง สเปกโตรแกรม พิกเซล และพื้นที่แฝง โปรดทราบว่า U-Net ได้รับการเริ่มต้นด้วย LDM แปลงข้อความเป็นรูปภาพที่ฝึกอบรมไว้ล่วงหน้า
3 สารบัญ
- การสร้างข้อความเป็นเสียง
 - การสร้าง TTA ด้วยข้อความแจ้งเตือน ChatGPT
 - การเปรียบเทียบหลายเหตุการณ์
 - การเปรียบเทียบแผนที่ Cross Attention
 - การถ่ายโอนสไตล์เสียงตามข้อความ
 - การลงสีเสียง
 - การทดแทนตามความสนใจ
 - การชั่งน้ำหนักใหม่โดยอิงตามความสนใจ
 - ความคิดเห็นอื่น ๆ
 - การปรับปรุงในอนาคต
 - คำถามที่พบบ่อย
 
4 การสร้างข้อความเป็นเสียง
4.1 ตัวอย่างสั้น ๆ :
- เสียงปืนดังขึ้น 2 นัด ตามด้วยเสียงนกร้อง / สุนัขเห่า / ผู้คนโห่ร้องในสนามกีฬา ท่ามกลางเสียงฟ้าร้องและฟ้าผ่า
 
4.2 การควบคุมสภาพแวดล้อมด้านเสียง:
- ชายคนหนึ่งกำลังพูดในห้องขนาดใหญ่ / ชายคนหนึ่งกำลังพูดในห้องเล็ก ๆ / ชายคนหนึ่งกำลังพูดในสตูดิโอ
 
4.3 การควบคุมวัสดุ:
- การสับมะเขือเทศบนโต๊ะไม้ / การสับเนื้อบนโต๊ะไม้ / การสับมันฝรั่งบนโต๊ะโลหะ
 
4.4 การควบคุมระดับเสียง:
- คลื่นไซน์พิทช์ต่ำ / คลื่นไซน์พิทช์กลาง / คลื่นไซน์พิทช์สูง
 
4.5 การควบคุมการสั่งการตามเวลา:
- รถแข่งกำลังขับผ่านและหายไป / เสียงปืนดังขึ้นสองนัดตามด้วยเสียงนกร้องบินหนีไป / เสียงเคาะโต๊ะไม้ดังขึ้นตามด้วยเสียงน้ำไหล
 
4.6 การสร้างฉลากเป็นเสียง:
- ไซเรน / ฟ้าร้อง / อู๊ด
 - ระเบิด / เสียงปรบมือ / เสียงตด
 - เลื่อยยนต์ / พลุ / ไก่, ไก่ตัวผู้
 - การสร้างแบบไม่มีเงื่อนไข: "โมฆะ"
 
การสร้าง TTA 5 ครั้งพร้อมข้อความแจ้งเตือน ChatGPT
- นกน้อยร้องเพลงอย่างไพเราะในสวนดอกไม้
 - ลูกแมวร้องเหมียวเพื่อเรียกร้องความสนใจ
 - เสียงหัวเราะของนางฟ้าวิเศษก้องไปทั่วป่าต้องมนตร์
 - เสียงกระซิบเบาๆ ของนิทานก่อนนอนที่ถูกเล่า
 - ลิงหัวเราะก่อนโดนระเบิดปรมาณูลูกใหญ่ตีหัว
 - ดินสอขีดเขียนบนสมุดบันทึก
 - เสียงน้ำกระเซ็นในบ่อน้ำ
 - เหรียญกระทบกันในกระปุกออมสิน
 - เด็กคนหนึ่งกำลังเป่านกหวีดอยู่ในสตูดิโอ
 - เสียงระฆังโบสถ์ดังอยู่ไกลๆ ตอนเที่ยงวัน
 - เสียงแตรรถดังขณะจราจรติดขัด
 - เด็ก ๆ โกรธจนกระจกแตกเพราะความหงุดหงิด
 - เครื่องพิมพ์ดีดสมัยเก่าส่งเสียงดังแก๊กๆ
 - หญิงสาวกรี๊ดเมื่อเห็นรูปอันน่าสยดสยองและชั่วร้ายที่สุด
 - เสียงหวูดรถไฟเป่าอยู่ไกลๆ
 
การเปรียบเทียบเหตุการณ์หลายรายการ 6 รายการ
คำอธิบายข้อความ เทียบกับ Ground-Truth เทียบกับ AudioGen เทียบกับ AudioLDM เทียบกับ AudioLDM2 เทียบกับ Tango เทียบกับ Auffusion
- เสียงระฆังดังขึ้นพร้อมกับเสียงนาฬิกาที่เดินนับเวลา และชายคนหนึ่งกำลังพูดคุยผ่านลำโพงโทรทัศน์ที่อยู่ด้านหลัง ตามมาด้วยเสียงระฆังที่ดังไม่ชัด
 - เสียงเครื่องยนต์ดังหึ่งๆ พร้อมกับเสียงผู้ชายกำลังพูด
 - เสียงปืนกลดังขึ้นหลายนัดและเสียงปืนอีก 2 นัดดังขึ้นขณะที่เครื่องบินเจ็ตกำลังบินผ่าน พร้อมกับเสียงเพลงบรรเลงเบาๆ
 - ผู้หญิงพูด เด็กผู้หญิงพูด เสียงปรบมือ เสียงแหบพร่า ขัดจังหวะด้วยเสียงหัวเราะ
 - ชายคนหนึ่งกำลังพูดในขณะที่กระดาษยับยู่ยี่ตามด้วยพลาสติกที่ดังเอี๊ยดอ๊าด จากนั้นก็มีคนกดชักโครก
 - ฝนตกลงมาขณะที่ผู้คนพูดคุยและหัวเราะกันอยู่เบื้องหลัง
 - คนเดินกันอย่างหนัก หยุดพัก เลื่อนเท้า เดิน หยุด แล้วเริ่มเดินอีกครั้ง
 
การเปรียบเทียบแผนที่ความสนใจแบบไขว้ 7
การเปรียบเทียบรวมถึง:
การผสมแบบไม่ต้องเตรียมล่วงหน้า / การผสมแบบมีคลิป / การผสมแบบมีปรบมือ / การผสมแบบมีฟลานท์5 / แทงโก้
8 การถ่ายโอนสไตล์เสียงตามข้อความ
ตัวอย่าง:
- จากเสียงแมวกรี๊ดไปจนถึงการแข่งรถ
 - จากเสียงนกเจื้อยแจ้วไปจนถึงเสียงไซเรนรถพยาบาล
 - จากเสียงทารกร้องไห้จนถึงเสียงแมวร้องเหมียว
 
ความคิดเห็นอื่น ๆ
- เราจะแบ่งปันโค้ดของเราบน GitHub เพื่อเปิดซอร์สการฝึกอบรมและการประเมินโมเดลการสร้างเสียงเพื่อการเปรียบเทียบที่ง่ายขึ้น
 - เรากำลังยืนยันปัญหาลิขสิทธิ์ที่เกี่ยวข้องกับข้อมูล หลังจากนั้นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะได้รับการเผยแพร่
 
การปรับปรุงในอนาคต
- เผยแพร่เว็บไซต์สาธิตและลิงค์ arXiv
 - เผยแพร่จุดตรวจสอบ Auffusion และ Auffusion-Full
 - เพิ่มการถ่ายโอนสไตล์ตามข้อความ
 - เพิ่มการสร้างเสียงเป็นเสียง
 - เพิ่มการลงสีเสียง
 - เพิ่มการสลับคำตามความสนใจและการควบคุมน้ำหนักใหม่ (ตาม prompt2prompt)
 - เพิ่มคุณภาพเสียงระดับซุปเปอร์เรดี
 - สร้างแอปพลิเคชันเว็บ Gradio ที่ผสานการทำงานเสียงกับเสียง การทาสีทับ การถ่ายโอนสไตล์ และความละเอียดสูงพิเศษ
 - เพิ่มโค้ดการประมวลผลข้อมูลเบื้องต้นและการฝึกอบรม
 
การแสดงความยอมรับ
เว็บไซต์นี้ถูกสร้างขึ้นจากผลงานของ GitHub ของ AudioLDM.
คำถามที่พบบ่อย
- Auffusion คืออะไร?
Auffusion คือโมเดลการสร้างข้อความเป็นเสียงที่ล้ำสมัยซึ่งใช้ประโยชน์จากโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อสร้างเสียงคุณภาพสูงจากข้อความแจ้งเตือน - การสร้างข้อความเป็นเสียงทำงานอย่างไร
ระบบจะแปลงคำอธิบายข้อความให้เป็นเสียงโดยการแมปข้อความที่ฝังไว้ในพื้นที่คุณลักษณะเสียงโดยใช้แบบจำลองการแพร่กระจายแฝง ช่วยให้มั่นใจถึงความเที่ยงตรงสูงและการจัดตำแหน่งที่แม่นยำ - คุณสมบัติหลักของ Auffusion มีอะไรบ้าง?
Auffusion รองรับการสร้างข้อความเป็นเสียง การแปลงเสียงเป็นเสียง การแก้ไขเสียง และการถ่ายโอนสไตล์เสียงโดยใช้ข้อความ - การแพร่กระจายมีบทบาทอย่างไรในโมเดลนี้?
แบบจำลองการแพร่กระจายช่วยในการแปลงสัญญาณรบกวนแบบสุ่มเป็นสัญญาณเสียงที่สอดคล้องกันโดยทำตามขั้นตอนการแพร่กระจายย้อนกลับที่ควบคุมโดยอินพุตข้อความ - โมเดลนี้เป็นโอเพนซอร์สหรือเปล่า?
ใช่ จุดตรวจสอบโค้ดและโมเดลได้รับการออกแบบให้เป็นโอเพนซอร์ส ช่วยให้ชุมชนนักวิจัยสามารถเข้าถึงและสร้างโครงการได้ - ต้องใช้ฮาร์ดแวร์ใดบ้างในการรัน Auffusion?
โมเดลนี้ได้รับการฝึกบน GPU A6000 ตัวเดียว อย่างไรก็ตาม ประสิทธิภาพอาจแตกต่างกันไป ขึ้นอยู่กับฮาร์ดแวร์และการตั้งค่าเฉพาะของคุณ - ฉันจะลองสร้างเสียงด้วย Auffusion ได้อย่างไร
คุณสามารถรันโค้ดอนุมานที่ให้มา หรือใช้สมุดบันทึก Colab เพื่อสร้างตัวอย่างเสียงจากข้อความแจ้งของคุณเองได้ - Audio InPainting คืออะไร?
Audio InPainting คือกระบวนการเติมส่วนที่หายไปของคลิปเสียง ช่วยให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่นและรักษาความสมบูรณ์ของเสียงโดยรวมไว้ - ฉันสามารถใช้โมเดลเพื่อวัตถุประสงค์เชิงพาณิชย์ได้หรือไม่?
สิทธิ์การใช้งานขึ้นอยู่กับใบอนุญาตของโมเดล โปรดตรวจสอบใบอนุญาตที่เก็บข้อมูลและเอกสารประกอบเพื่อดูแนวทางการใช้งานเชิงพาณิชย์ - ฉันสามารถมีส่วนร่วมกับโครงการ Auffusion ได้อย่างไร?
คุณสามารถมีส่วนร่วมได้โดยการรายงานปัญหา เสนอแนะการปรับปรุง หรือส่งคำขอการดึงข้อมูลผ่านที่เก็บ GitHub ของโครงการ 
