เสียงปืนดังขึ้น 2 นัด ตามมาด้วยเสียงนกร้อง
สุนัขเห่า
ผู้คนโห่ร้องในสนามกีฬาพร้อมเสียงฟ้าร้องฟ้าผ่า
สำรวจความทันสมัย การแปลงข้อความเป็นเสียง, เสียงต่อเสียง, และ เสียงในภาพวาด เทคนิคที่ขับเคลื่อนด้วยการแพร่กระจายและโมเดลภาษาขนาดใหญ่
1 การนำทาง
- Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
- Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
2 ภาพรวมเอกสาร
Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
จินหลง เสวี่ย, หยาเยว่เติ้ง, หยิงหมิง เกา, หยาลี่
1. มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง ปักกิ่ง ประเทศจีน
เอกสารเกี่ยวกับ ArXiv | โค้ดบน GitHub | กอดหน้า
2.1 บทคัดย่อ
ความก้าวหน้าล่าสุดในโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่ (LLM) ได้ส่งเสริมสาขา AIGC อย่างมีนัยสำคัญ การแปลงข้อความเป็นเสียง (TTA) ซึ่งเป็นแอปพลิเคชัน AIGC ที่กำลังเติบโตอย่างรวดเร็วซึ่งออกแบบมาเพื่อสร้างเสียงจากคำสั่งภาษาธรรมชาติ กำลังได้รับความสนใจเพิ่มมากขึ้น อย่างไรก็ตาม การศึกษา TTA ที่มีอยู่มักประสบปัญหาในการสร้างคุณภาพและการจัดตำแหน่งข้อความและเสียง โดยเฉพาะอย่างยิ่งสำหรับอินพุตข้อความที่ซับซ้อน โดยได้รับแรงบันดาลใจจากโมเดลการแพร่กระจาย Text-to-Image (T2I) ที่ทันสมัย เราขอแนะนำ Auffusion ซึ่งเป็นระบบ TTA ที่ปรับกรอบงานของโมเดล T2I สำหรับการสร้างเสียงโดยใช้ประโยชน์จากจุดแข็งในการสร้างที่มีอยู่และการจัดตำแหน่งข้ามโหมดที่แม่นยำ การประเมินเชิงวัตถุวิสัยและอัตนัยแสดงให้เห็นว่า Auffusion เหนือกว่าแนวทาง TTA ก่อนหน้านี้ แม้ว่าจะใช้ข้อมูลและทรัพยากรการคำนวณที่จำกัดก็ตาม การศึกษาการลบอย่างครอบคลุมและการแสดงภาพแผนที่ความสนใจข้ามที่สร้างสรรค์ยิ่งขึ้นแสดงให้เห็นถึงการจัดตำแหน่งข้อความและเสียงที่เหนือกว่า ซึ่งเป็นประโยชน์ต่องานที่เกี่ยวข้อง เช่น การถ่ายโอนรูปแบบเสียง การระบายสีทับ และการจัดการอื่นๆ
2.2 หมายเหตุ
- Auffusion จะสร้างเอฟเฟกต์เสียงตามเงื่อนไขของข้อความ คำพูดของมนุษย์ และเสียงดนตรี
- แบบจำลองการแพร่กระจายแฝง (LDM) ได้รับการฝึกอบรมบน GPU A6000 ตัวเดียว โดยอาศัยการแพร่กระจายที่เสถียรโดยใช้การให้ความสนใจแบบไขว้
- การจัดตำแหน่งข้อความและเสียงที่แข็งแกร่งทำให้สามารถถ่ายโอนรูปแบบเสียง การแก้ไข และการกำหนดน้ำหนัก/แทนที่ตามความสนใจได้
2.3 รูปที่ 1: ภาพรวมของสถาปัตยกรรมการแพร่กระจาย
กระบวนการฝึกอบรมและอนุมานเกี่ยวข้องกับการแปลงไปมาระหว่างพื้นที่คุณลักษณะทั้งสี่: เสียง สเปกโตรแกรม พิกเซล และพื้นที่แฝง โปรดทราบว่า U-Net ได้รับการเริ่มต้นด้วย LDM แปลงข้อความเป็นรูปภาพที่ฝึกอบรมไว้ล่วงหน้า
3 สารบัญ
- การสร้างข้อความเป็นเสียง
- การสร้าง TTA ด้วยข้อความแจ้งเตือน ChatGPT
- การเปรียบเทียบหลายเหตุการณ์
- การเปรียบเทียบแผนที่ Cross Attention
- การถ่ายโอนสไตล์เสียงตามข้อความ
- การลงสีเสียง
- การทดแทนตามความสนใจ
- การชั่งน้ำหนักใหม่โดยอิงตามความสนใจ
- ความคิดเห็นอื่น ๆ
- การปรับปรุงในอนาคต
- คำถามที่พบบ่อย
4 การสร้างข้อความเป็นเสียง
4.1 ตัวอย่างสั้น ๆ :
- เสียงปืนดังขึ้น 2 นัด ตามด้วยเสียงนกร้อง / สุนัขเห่า / ผู้คนโห่ร้องในสนามกีฬา ท่ามกลางเสียงฟ้าร้องและฟ้าผ่า
4.2 การควบคุมสภาพแวดล้อมด้านเสียง:
- ชายคนหนึ่งกำลังพูดในห้องขนาดใหญ่ / ชายคนหนึ่งกำลังพูดในห้องเล็ก ๆ / ชายคนหนึ่งกำลังพูดในสตูดิโอ
4.3 การควบคุมวัสดุ:
- การสับมะเขือเทศบนโต๊ะไม้ / การสับเนื้อบนโต๊ะไม้ / การสับมันฝรั่งบนโต๊ะโลหะ
4.4 การควบคุมระดับเสียง:
- คลื่นไซน์พิทช์ต่ำ / คลื่นไซน์พิทช์กลาง / คลื่นไซน์พิทช์สูง
4.5 การควบคุมการสั่งการตามเวลา:
- รถแข่งกำลังขับผ่านและหายไป / เสียงปืนดังขึ้นสองนัดตามด้วยเสียงนกร้องบินหนีไป / เสียงเคาะโต๊ะไม้ดังขึ้นตามด้วยเสียงน้ำไหล
4.6 การสร้างฉลากเป็นเสียง:
- ไซเรน / ฟ้าร้อง / อู๊ด
- ระเบิด / เสียงปรบมือ / เสียงตด
- เลื่อยยนต์ / พลุ / ไก่, ไก่ตัวผู้
- การสร้างแบบไม่มีเงื่อนไข: "โมฆะ"
การสร้าง TTA 5 ครั้งพร้อมข้อความแจ้งเตือน ChatGPT
- นกน้อยร้องเพลงอย่างไพเราะในสวนดอกไม้
- ลูกแมวร้องเหมียวเพื่อเรียกร้องความสนใจ
- เสียงหัวเราะของนางฟ้าวิเศษก้องไปทั่วป่าต้องมนตร์
- เสียงกระซิบเบาๆ ของนิทานก่อนนอนที่ถูกเล่า
- ลิงหัวเราะก่อนโดนระเบิดปรมาณูลูกใหญ่ตีหัว
- ดินสอขีดเขียนบนสมุดบันทึก
- เสียงน้ำกระเซ็นในบ่อน้ำ
- เหรียญกระทบกันในกระปุกออมสิน
- เด็กคนหนึ่งกำลังเป่านกหวีดอยู่ในสตูดิโอ
- เสียงระฆังโบสถ์ดังอยู่ไกลๆ ตอนเที่ยงวัน
- เสียงแตรรถดังขณะจราจรติดขัด
- เด็ก ๆ โกรธจนกระจกแตกเพราะความหงุดหงิด
- เครื่องพิมพ์ดีดสมัยเก่าส่งเสียงดังแก๊กๆ
- หญิงสาวกรี๊ดเมื่อเห็นรูปอันน่าสยดสยองและชั่วร้ายที่สุด
- เสียงหวูดรถไฟเป่าอยู่ไกลๆ
การเปรียบเทียบเหตุการณ์หลายรายการ 6 รายการ
คำอธิบายข้อความ เทียบกับ Ground-Truth เทียบกับ AudioGen เทียบกับ AudioLDM เทียบกับ AudioLDM2 เทียบกับ Tango เทียบกับ Auffusion
- เสียงระฆังดังขึ้นพร้อมกับเสียงนาฬิกาที่เดินนับเวลา และชายคนหนึ่งกำลังพูดคุยผ่านลำโพงโทรทัศน์ที่อยู่ด้านหลัง ตามมาด้วยเสียงระฆังที่ดังไม่ชัด
- เสียงเครื่องยนต์ดังหึ่งๆ พร้อมกับเสียงผู้ชายกำลังพูด
- เสียงปืนกลดังขึ้นหลายนัดและเสียงปืนอีก 2 นัดดังขึ้นขณะที่เครื่องบินเจ็ตกำลังบินผ่าน พร้อมกับเสียงเพลงบรรเลงเบาๆ
- ผู้หญิงพูด เด็กผู้หญิงพูด เสียงปรบมือ เสียงแหบพร่า ขัดจังหวะด้วยเสียงหัวเราะ
- ชายคนหนึ่งกำลังพูดในขณะที่กระดาษยับยู่ยี่ตามด้วยพลาสติกที่ดังเอี๊ยดอ๊าด จากนั้นก็มีคนกดชักโครก
- ฝนตกลงมาขณะที่ผู้คนพูดคุยและหัวเราะกันอยู่เบื้องหลัง
- คนเดินกันอย่างหนัก หยุดพัก เลื่อนเท้า เดิน หยุด แล้วเริ่มเดินอีกครั้ง
การเปรียบเทียบแผนที่ความสนใจแบบไขว้ 7
การเปรียบเทียบรวมถึง:
การผสมแบบไม่ต้องเตรียมล่วงหน้า / การผสมแบบมีคลิป / การผสมแบบมีปรบมือ / การผสมแบบมีฟลานท์5 / แทงโก้
8 การถ่ายโอนสไตล์เสียงตามข้อความ
ตัวอย่าง:
- จากเสียงแมวกรี๊ดไปจนถึงการแข่งรถ
- จากเสียงนกเจื้อยแจ้วไปจนถึงเสียงไซเรนรถพยาบาล
- จากเสียงทารกร้องไห้จนถึงเสียงแมวร้องเหมียว
ความคิดเห็นอื่น ๆ
- เราจะแบ่งปันโค้ดของเราบน GitHub เพื่อเปิดซอร์สการฝึกอบรมและการประเมินโมเดลการสร้างเสียงเพื่อการเปรียบเทียบที่ง่ายขึ้น
- เรากำลังยืนยันปัญหาลิขสิทธิ์ที่เกี่ยวข้องกับข้อมูล หลังจากนั้นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะได้รับการเผยแพร่
การปรับปรุงในอนาคต
- เผยแพร่เว็บไซต์สาธิตและลิงค์ arXiv
- เผยแพร่จุดตรวจสอบ Auffusion และ Auffusion-Full
- เพิ่มการถ่ายโอนสไตล์ตามข้อความ
- เพิ่มการสร้างเสียงเป็นเสียง
- เพิ่มการลงสีเสียง
- เพิ่มการสลับคำตามความสนใจและการควบคุมน้ำหนักใหม่ (ตาม prompt2prompt)
- เพิ่มคุณภาพเสียงระดับซุปเปอร์เรดี
- สร้างแอปพลิเคชันเว็บ Gradio ที่ผสานการทำงานเสียงกับเสียง การทาสีทับ การถ่ายโอนสไตล์ และความละเอียดสูงพิเศษ
- เพิ่มโค้ดการประมวลผลข้อมูลเบื้องต้นและการฝึกอบรม
การแสดงความยอมรับ
เว็บไซต์นี้ถูกสร้างขึ้นจากผลงานของ GitHub ของ AudioLDM.
คำถามที่พบบ่อย
- Auffusion คืออะไร?
Auffusion คือโมเดลการสร้างข้อความเป็นเสียงที่ล้ำสมัยซึ่งใช้ประโยชน์จากโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อสร้างเสียงคุณภาพสูงจากข้อความแจ้งเตือน - การสร้างข้อความเป็นเสียงทำงานอย่างไร
ระบบจะแปลงคำอธิบายข้อความให้เป็นเสียงโดยการแมปข้อความที่ฝังไว้ในพื้นที่คุณลักษณะเสียงโดยใช้แบบจำลองการแพร่กระจายแฝง ช่วยให้มั่นใจถึงความเที่ยงตรงสูงและการจัดตำแหน่งที่แม่นยำ - คุณสมบัติหลักของ Auffusion มีอะไรบ้าง?
Auffusion รองรับการสร้างข้อความเป็นเสียง การแปลงเสียงเป็นเสียง การแก้ไขเสียง และการถ่ายโอนสไตล์เสียงโดยใช้ข้อความ - การแพร่กระจายมีบทบาทอย่างไรในโมเดลนี้?
แบบจำลองการแพร่กระจายช่วยในการแปลงสัญญาณรบกวนแบบสุ่มเป็นสัญญาณเสียงที่สอดคล้องกันโดยทำตามขั้นตอนการแพร่กระจายย้อนกลับที่ควบคุมโดยอินพุตข้อความ - โมเดลนี้เป็นโอเพนซอร์สหรือเปล่า?
ใช่ จุดตรวจสอบโค้ดและโมเดลได้รับการออกแบบให้เป็นโอเพนซอร์ส ช่วยให้ชุมชนนักวิจัยสามารถเข้าถึงและสร้างโครงการได้ - ต้องใช้ฮาร์ดแวร์ใดบ้างในการรัน Auffusion?
โมเดลนี้ได้รับการฝึกบน GPU A6000 ตัวเดียว อย่างไรก็ตาม ประสิทธิภาพอาจแตกต่างกันไป ขึ้นอยู่กับฮาร์ดแวร์และการตั้งค่าเฉพาะของคุณ - ฉันจะลองสร้างเสียงด้วย Auffusion ได้อย่างไร
คุณสามารถรันโค้ดอนุมานที่ให้มา หรือใช้สมุดบันทึก Colab เพื่อสร้างตัวอย่างเสียงจากข้อความแจ้งของคุณเองได้ - Audio InPainting คืออะไร?
Audio InPainting คือกระบวนการเติมส่วนที่หายไปของคลิปเสียง ช่วยให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่นและรักษาความสมบูรณ์ของเสียงโดยรวมไว้ - ฉันสามารถใช้โมเดลเพื่อวัตถุประสงค์เชิงพาณิชย์ได้หรือไม่?
สิทธิ์การใช้งานขึ้นอยู่กับใบอนุญาตของโมเดล โปรดตรวจสอบใบอนุญาตที่เก็บข้อมูลและเอกสารประกอบเพื่อดูแนวทางการใช้งานเชิงพาณิชย์ - ฉันสามารถมีส่วนร่วมกับโครงการ Auffusion ได้อย่างไร?
คุณสามารถมีส่วนร่วมได้โดยการรายงานปัญหา เสนอแนะการปรับปรุง หรือส่งคำขอการดึงข้อมูลผ่านที่เก็บ GitHub ของโครงการ