เสียงปืนดังขึ้น 2 นัด ตามมาด้วยเสียงนกร้อง
สุนัขเห่า
ผู้คนโห่ร้องในสนามกีฬาพร้อมเสียงฟ้าร้องฟ้าผ่า
สำรวจความทันสมัย การแปลงข้อความเป็นเสียง, เสียงต่อเสียง, และ เสียงในภาพวาด เทคนิคที่ขับเคลื่อนด้วยการแพร่กระจายและโมเดลภาษาขนาดใหญ่
1 การนำทาง
- Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
- Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
2 ภาพรวมเอกสาร
Auffusion: การใช้ประโยชน์จากพลังของการแพร่กระจายและโมเดลภาษาขนาดใหญ่สำหรับการสร้างข้อความเป็นเสียง
จินหลง เสวี่ย, หยาเยว่เติ้ง, หยิงหมิง เกา, หยาลี่
1. มหาวิทยาลัยไปรษณีย์และโทรคมนาคมปักกิ่ง ปักกิ่ง ประเทศจีน
เอกสารเกี่ยวกับ ArXiv | โค้ดบน GitHub | กอดหน้า
2.1 บทคัดย่อ
ความก้าวหน้าล่าสุดในโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่ (LLM) ได้ส่งเสริมสาขา AIGC อย่างมีนัยสำคัญ การแปลงข้อความเป็นเสียง (TTA) ซึ่งเป็นแอปพลิเคชัน AIGC ที่กำลังเติบโตอย่างรวดเร็วซึ่งออกแบบมาเพื่อสร้างเสียงจากคำสั่งภาษาธรรมชาติ กำลังได้รับความสนใจเพิ่มมากขึ้น อย่างไรก็ตาม การศึกษา TTA ที่มีอยู่มักประสบปัญหาในการสร้างคุณภาพและการจัดตำแหน่งข้อความและเสียง โดยเฉพาะอย่างยิ่งสำหรับอินพุตข้อความที่ซับซ้อน โดยได้รับแรงบันดาลใจจากโมเดลการแพร่กระจาย Text-to-Image (T2I) ที่ทันสมัย เราขอแนะนำ Auffusion ซึ่งเป็นระบบ TTA ที่ปรับกรอบงานของโมเดล T2I สำหรับการสร้างเสียงโดยใช้ประโยชน์จากจุดแข็งในการสร้างที่มีอยู่และการจัดตำแหน่งข้ามโหมดที่แม่นยำ การประเมินเชิงวัตถุวิสัยและอัตนัยแสดงให้เห็นว่า Auffusion เหนือกว่าแนวทาง TTA ก่อนหน้านี้ แม้ว่าจะใช้ข้อมูลและทรัพยากรการคำนวณที่จำกัดก็ตาม การศึกษาการลบอย่างครอบคลุมและการแสดงภาพแผนที่ความสนใจข้ามที่สร้างสรรค์ยิ่งขึ้นแสดงให้เห็นถึงการจัดตำแหน่งข้อความและเสียงที่เหนือกว่า ซึ่งเป็นประโยชน์ต่องานที่เกี่ยวข้อง เช่น การถ่ายโอนรูปแบบเสียง การระบายสีทับ และการจัดการอื่นๆ
2.2 หมายเหตุ
- Auffusion จะสร้างเอฟเฟกต์เสียงตามเงื่อนไขของข้อความ คำพูดของมนุษย์ และเสียงดนตรี
- แบบจำลองการแพร่กระจายแฝง (LDM) ได้รับการฝึกอบรมบน GPU A6000 ตัวเดียว โดยอาศัยการแพร่กระจายที่เสถียรโดยใช้การให้ความสนใจแบบไขว้
- การจัดตำแหน่งข้อความและเสียงที่แข็งแกร่งทำให้สามารถถ่ายโอนรูปแบบเสียง การแก้ไข และการกำหนดน้ำหนัก/แทนที่ตามความสนใจได้
2.3 รูปที่ 1: ภาพรวมของสถาปัตยกรรมการแพร่กระจาย
กระบวนการฝึกอบรมและอนุมานเกี่ยวข้องกับการแปลงไปมาระหว่างพื้นที่คุณลักษณะทั้งสี่: เสียง สเปกโตรแกรม พิกเซล และพื้นที่แฝง โปรดทราบว่า U-Net ได้รับการเริ่มต้นด้วย LDM แปลงข้อความเป็นรูปภาพที่ฝึกอบรมไว้ล่วงหน้า
3 สารบัญ
- การสร้างข้อความเป็นเสียง
- การสร้าง TTA ด้วยข้อความแจ้งเตือน ChatGPT
- การเปรียบเทียบหลายเหตุการณ์
- การเปรียบเทียบแผนที่ Cross Attention
- การถ่ายโอนสไตล์เสียงตามข้อความ
- การลงสีเสียง
- การทดแทนตามความสนใจ
- การชั่งน้ำหนักใหม่โดยอิงตามความสนใจ
- ความคิดเห็นอื่น ๆ
- การปรับปรุงในอนาคต
- คำถามที่พบบ่อย
4 การสร้างข้อความเป็นเสียง
4.1 ตัวอย่างสั้น ๆ :
- เสียงปืนดังขึ้น 2 นัด ตามด้วยเสียงนกร้อง / สุนัขเห่า / ผู้คนโห่ร้องในสนามกีฬา ท่ามกลางเสียงฟ้าร้องและฟ้าผ่า
4.2 การควบคุมสภาพแวดล้อมด้านเสียง:
- ชายคนหนึ่งกำลังพูดในห้องขนาดใหญ่ / ชายคนหนึ่งกำลังพูดในห้องเล็ก ๆ / ชายคนหนึ่งกำลังพูดในสตูดิโอ
4.3 การควบคุมวัสดุ:
- การสับมะเขือเทศบนโต๊ะไม้ / การสับเนื้อบนโต๊ะไม้ / การสับมันฝรั่งบนโต๊ะโลหะ
4.4 การควบคุมระดับเสียง:
- คลื่นไซน์พิทช์ต่ำ / คลื่นไซน์พิทช์กลาง / คลื่นไซน์พิทช์สูง
4.5 การควบคุมการสั่งการตามเวลา:
- รถแข่งกำลังขับผ่านและหายไป / เสียงปืนดังขึ้นสองนัดตามด้วยเสียงนกร้องบินหนีไป / เสียงเคาะโต๊ะไม้ดังขึ้นตามด้วยเสียงน้ำไหล
4.6 การสร้างฉลากเป็นเสียง:
- ไซเรน / ฟ้าร้อง / อู๊ด
- ระเบิด / เสียงปรบมือ / เสียงตด
- เลื่อยยนต์ / พลุ / ไก่, ไก่ตัวผู้
- การสร้างแบบไม่มีเงื่อนไข: "โมฆะ"
การสร้าง TTA 5 ครั้งพร้อมข้อความแจ้งเตือน ChatGPT
- นกน้อยร้องเพลงอย่างไพเราะในสวนดอกไม้
- ลูกแมวร้องเหมียวเพื่อเรียกร้องความสนใจ
- เสียงหัวเราะของนางฟ้าวิเศษก้องไปทั่วป่าต้องมนตร์
- เสียงกระซิบเบาๆ ของนิทานก่อนนอนที่ถูกเล่า
- ลิงหัวเราะก่อนโดนระเบิดปรมาณูลูกใหญ่ตีหัว
- ดินสอขีดเขียนบนสมุดบันทึก
- เสียงน้ำกระเซ็นในบ่อน้ำ
- เหรียญกระทบกันในกระปุกออมสิน
- เด็กคนหนึ่งกำลังเป่านกหวีดอยู่ในสตูดิโอ
- เสียงระฆังโบสถ์ดังอยู่ไกลๆ ตอนเที่ยงวัน
- เสียงแตรรถดังขณะจราจรติดขัด
- เด็ก ๆ โกรธจนกระจกแตกเพราะความหงุดหงิด
- เครื่องพิมพ์ดีดสมัยเก่าส่งเสียงดังแก๊กๆ
- หญิงสาวกรี๊ดเมื่อเห็นรูปอันน่าสยดสยองและชั่วร้ายที่สุด
- เสียงหวูดรถไฟเป่าอยู่ไกลๆ
การเปรียบเทียบเหตุการณ์หลายรายการ 6 รายการ
คำอธิบายข้อความ เทียบกับ Ground-Truth เทียบกับ AudioGen เทียบกับ AudioLDM เทียบกับ AudioLDM2 เทียบกับ Tango เทียบกับ Auffusion
- เสียงระฆังดังขึ้นพร้อมกับเสียงนาฬิกาที่เดินนับเวลา และชายคนหนึ่งกำลังพูดคุยผ่านลำโพงโทรทัศน์ที่อยู่ด้านหลัง ตามมาด้วยเสียงระฆังที่ดังไม่ชัด
- เสียงเครื่องยนต์ดังหึ่งๆ พร้อมกับเสียงผู้ชายกำลังพูด
- เสียงปืนกลดังขึ้นหลายนัดและเสียงปืนอีก 2 นัดดังขึ้นขณะที่เครื่องบินเจ็ตกำลังบินผ่าน พร้อมกับเสียงเพลงบรรเลงเบาๆ
- ผู้หญิงพูด เด็กผู้หญิงพูด เสียงปรบมือ เสียงแหบพร่า ขัดจังหวะด้วยเสียงหัวเราะ
- ชายคนหนึ่งกำลังพูดในขณะที่กระดาษยับยู่ยี่ตามด้วยพลาสติกที่ดังเอี๊ยดอ๊าด จากนั้นก็มีคนกดชักโครก
- ฝนตกลงมาขณะที่ผู้คนพูดคุยและหัวเราะกันอยู่เบื้องหลัง
- คนเดินกันอย่างหนัก หยุดพัก เลื่อนเท้า เดิน หยุด แล้วเริ่มเดินอีกครั้ง
การเปรียบเทียบแผนที่ความสนใจแบบไขว้ 7
การเปรียบเทียบรวมถึง:
การผสมแบบไม่ต้องเตรียมล่วงหน้า / การผสมแบบมีคลิป / การผสมแบบมีปรบมือ / การผสมแบบมีฟลานท์5 / แทงโก้
8 การถ่ายโอนสไตล์เสียงตามข้อความ
ตัวอย่าง:
- จากเสียงแมวกรี๊ดไปจนถึงการแข่งรถ
- จากเสียงนกเจื้อยแจ้วไปจนถึงเสียงไซเรนรถพยาบาล
- จากเสียงทารกร้องไห้จนถึงเสียงแมวร้องเหมียว
ความคิดเห็นอื่น ๆ
- เราจะแบ่งปันโค้ดของเราบน GitHub เพื่อเปิดซอร์สการฝึกอบรมและการประเมินโมเดลการสร้างเสียงเพื่อการเปรียบเทียบที่ง่ายขึ้น
- เรากำลังยืนยันปัญหาลิขสิทธิ์ที่เกี่ยวข้องกับข้อมูล หลังจากนั้นโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะได้รับการเผยแพร่
การปรับปรุงในอนาคต
- เผยแพร่เว็บไซต์สาธิตและลิงค์ arXiv
- เผยแพร่จุดตรวจสอบ Auffusion และ Auffusion-Full
- เพิ่มการถ่ายโอนสไตล์ตามข้อความ
- เพิ่มการสร้างเสียงเป็นเสียง
- เพิ่มการลงสีเสียง
- เพิ่มการสลับคำตามความสนใจและการควบคุมน้ำหนักใหม่ (ตาม prompt2prompt)
- เพิ่มคุณภาพเสียงระดับซุปเปอร์เรดี
- สร้างแอปพลิเคชันเว็บ Gradio ที่ผสานการทำงานเสียงกับเสียง การทาสีทับ การถ่ายโอนสไตล์ และความละเอียดสูงพิเศษ
- เพิ่มโค้ดการประมวลผลข้อมูลเบื้องต้นและการฝึกอบรม
การแสดงความยอมรับ
เว็บไซต์นี้ถูกสร้างขึ้นจากผลงานของ GitHub ของ AudioLDM.
คำถามที่พบบ่อย
- Auffusion คืออะไร?
 Auffusion คือโมเดลการสร้างข้อความเป็นเสียงที่ล้ำสมัยซึ่งใช้ประโยชน์จากโมเดลการแพร่กระจายและโมเดลภาษาขนาดใหญ่เพื่อสร้างเสียงคุณภาพสูงจากข้อความแจ้งเตือน
- การสร้างข้อความเป็นเสียงทำงานอย่างไร
 ระบบจะแปลงคำอธิบายข้อความให้เป็นเสียงโดยการแมปข้อความที่ฝังไว้ในพื้นที่คุณลักษณะเสียงโดยใช้แบบจำลองการแพร่กระจายแฝง ช่วยให้มั่นใจถึงความเที่ยงตรงสูงและการจัดตำแหน่งที่แม่นยำ
- คุณสมบัติหลักของ Auffusion มีอะไรบ้าง?
 Auffusion รองรับการสร้างข้อความเป็นเสียง การแปลงเสียงเป็นเสียง การแก้ไขเสียง และการถ่ายโอนสไตล์เสียงโดยใช้ข้อความ
- การแพร่กระจายมีบทบาทอย่างไรในโมเดลนี้?
 แบบจำลองการแพร่กระจายช่วยในการแปลงสัญญาณรบกวนแบบสุ่มเป็นสัญญาณเสียงที่สอดคล้องกันโดยทำตามขั้นตอนการแพร่กระจายย้อนกลับที่ควบคุมโดยอินพุตข้อความ
- โมเดลนี้เป็นโอเพนซอร์สหรือเปล่า?
 ใช่ จุดตรวจสอบโค้ดและโมเดลได้รับการออกแบบให้เป็นโอเพนซอร์ส ช่วยให้ชุมชนนักวิจัยสามารถเข้าถึงและสร้างโครงการได้
- ต้องใช้ฮาร์ดแวร์ใดบ้างในการรัน Auffusion?
 โมเดลนี้ได้รับการฝึกบน GPU A6000 ตัวเดียว อย่างไรก็ตาม ประสิทธิภาพอาจแตกต่างกันไป ขึ้นอยู่กับฮาร์ดแวร์และการตั้งค่าเฉพาะของคุณ
- ฉันจะลองสร้างเสียงด้วย Auffusion ได้อย่างไร
 คุณสามารถรันโค้ดอนุมานที่ให้มา หรือใช้สมุดบันทึก Colab เพื่อสร้างตัวอย่างเสียงจากข้อความแจ้งของคุณเองได้
- Audio InPainting คืออะไร?
 Audio InPainting คือกระบวนการเติมส่วนที่หายไปของคลิปเสียง ช่วยให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่นและรักษาความสมบูรณ์ของเสียงโดยรวมไว้
- ฉันสามารถใช้โมเดลเพื่อวัตถุประสงค์เชิงพาณิชย์ได้หรือไม่?
 สิทธิ์การใช้งานขึ้นอยู่กับใบอนุญาตของโมเดล โปรดตรวจสอบใบอนุญาตที่เก็บข้อมูลและเอกสารประกอบเพื่อดูแนวทางการใช้งานเชิงพาณิชย์
- ฉันสามารถมีส่วนร่วมกับโครงการ Auffusion ได้อย่างไร?
 คุณสามารถมีส่วนร่วมได้โดยการรายงานปัญหา เสนอแนะการปรับปรุง หรือส่งคำขอการดึงข้อมูลผ่านที่เก็บ GitHub ของโครงการ

 Thai
Thai				 English
English					           Japanese
Japanese					           Korean
Korean					           French
French					           German
German					           Chinese (China)
Chinese (China)					           Chinese (Taiwan)
Chinese (Taiwan)					           Portuguese
Portuguese					           Italian
Italian					           Swedish
Swedish					           Russian
Russian					           Hindi
Hindi					           Arabic
Arabic					           Spanish
Spanish					           Czech
Czech					           Swahili
Swahili					           Romanian
Romanian					           Indonesian
Indonesian					           Norwegian
Norwegian					           Norwegian
Norwegian