Auffusion：下一代文字轉音訊生成模型

兩聲槍響，隨後是鳥鳴

有狗在叫

雷聲滾滾，閃電劈過，人們在體育場歡呼

探索最先進的 文字轉音頻, 音訊到音訊以及 音訊修復 由傳播和大型語言模型驅動的技術。

1 導航

2 論文概述

Auffusion：利用擴散和大型語言模型的強大功能實現文字轉音頻生成

薛金龍, 鄧亞月, 高英明, 李亞
1，北京郵電大學，北京，中國

ArXiv 上的論文 | GitHub 上的程式碼 | 擁抱臉

2.1 摘要

傳播模型和大型語言模型 (LLM) 的最新進展極大地推動了 AIGC 領域的發展。 文字轉音頻 （TTA）是一款新興的 AIGC 應用程序，旨在根據自然語言提示生成音頻，正在吸引越來越多的關注。然而，現有的 TTA 研究通常在產生品質和文字音訊對齊方面存在困難，尤其是對於複雜的文字輸入。受最先進的文本到圖像 (T2I) 擴散模型的啟發，我們推出了 Auffusion——一種 TTA 系統，它通過利用固有的生成優勢和精確的跨模態對齊來調整 T2I 模型框架以進行音頻生成。客觀和主觀評估表明，即使在使用有限的數據和計算資源時，Auffusion 也超越了先前的 TTA 方法。全面的消融研究和創新的交叉注意力圖視覺化進一步展示了其卓越的文字-音訊對齊，有利於音訊風格轉換、修復和其他操作等相關任務。

2.2 注意

Auffusion 可產生文字條件音效、人類語音和音樂。
潛在擴散模型（LDM）在單一 A6000 GPU 上進行訓練，基於使用交叉注意的穩定擴散。
其強大的文字音訊對齊功能可實現文字引導的音訊風格轉換、修復和基於注意力的重新加權/替換操作。

2.3 圖 1：Auffusion 架構概覽

訓練和推理過程涉及四個特徵空間之間的來回轉換：音訊、頻譜圖、像素和潛在空間。請注意，U-Net 是使用預先訓練的文字到圖像 LDM 初始化的。

3 目錄

4 文字轉音訊生成

4.1 簡短範例：

兩聲槍響後，鳥兒嘰嘰喳喳 / 狗叫聲不斷 / 體育場內雷聲雷電交加，人們歡呼雀躍

4.2聲環境控制：

一個男人在一個大房間裡講話 / 一個男人在一個小房間裡講話 / 一個男人在演播室講話

4.3 材料控制：

在木桌上切西紅柿 / 在木桌上切肉 / 在金屬桌上切土豆

4.4 俯仰控制：

低音調正弦波 / 中音正弦波 / 高音正弦波

4.5 時間順序控制：

賽車駛過並消失 / 兩聲槍響後鳥兒鳴叫著飛走 / 木桌敲擊聲後水倒出聲

4.6 標籤到音訊的產生：

海妖 / 雷霆 / 哼哼
爆炸 / 掌聲 / 放屁
電鋸 / 煙火 / 雞，公雞
無條件生成： “無效的”

5 TTA 產生與 ChatGPT 文字提示

鳥兒在花朵盛開的花園裡甜美地歌唱
小貓喵喵叫以引起注意
魔法仙女的笑聲迴盪在魔法森林裡
睡前故事的輕聲細語
一隻猴子在被巨型原子彈擊中頭部前大笑
一支鉛筆在記事本上亂寫
池塘裡的水花飛濺
存錢筒裡叮噹作響的硬幣
一個孩子在工作室裡吹口哨
遠處傳來教堂正午的鐘聲
交通中汽車鳴笛
憤怒的孩子沮喪地打破玻璃杯
老式打字機發出喀喀聲
一個女孩因為最瘋狂、最卑劣的景象而尖叫
遠處傳來火車的汽笛聲

6 多事件比較

文字描述 vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

鐘錶滴答作響，背景中一名男子透過電視揚聲器說話，隨後傳來低沉的鐘聲
引擎嗡嗡作響，一名男子在說話
一架噴射機飛過時，機槍聲不斷，兩聲槍響，隨後播放著輕柔的音樂
女人說話，女孩說話，鼓掌，沙啞的噪音打斷，接著是笑聲
一名男子說話時，紙張發出沙沙聲，然後是塑膠吱吱作響，然後是馬桶沖水聲
雨下著，背景人們在說話和笑
人們走路沉重，停頓，滑動雙腳，行走，停止，然後再次行走

7 交叉注意力圖對比

比較包括：
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango。

8 文字引導的音訊風格轉換

例子：

從貓叫到賽車。
從鳥兒的鳴叫到救護車的警報聲。
從嬰兒哭鬧到貓咪喵喵叫。

其他評論

我們將在GitHub上分享我們的程式碼，以開源音訊生成模型的訓練和評估，以便於進行比較。
我們正在確認與資料相關的版權問題，之後將發布預先訓練的模型。

未來的增強功能

發布演示網站和 arXiv 連結。
發布 Auffusion 和 Auffusion-Full 檢查點。
新增文字引導的風格轉換。
新增音訊到音訊的生成。
新增音訊修復。
加入基於注意力的字詞交換和重新加權控制（基於prompt2prompt）。
新增音頻超解析度。
建立一個整合音訊到音訊、修復、風格轉換和超解析度的 Gradio Web 應用程式。
新增資料預處理和訓練代碼。

致謝

本網站基於以下作品創建： AudioLDM GitHub.

常問問題

Auffusion 是什麼？
Auffusion 是一種最先進的文字到音訊生成模型，它利用擴散模型和大型語言模型根據文字提示創建高品質的音訊。
文字轉音訊的生成是如何進行的？
該系統透過使用潛在擴散模型將文字嵌入映射到音頻特徵空間，將文字描述轉換為音頻，確保高保真度和精確對齊。
Auffusion 的核心功能是什麼？
Auffusion 支援文字到音訊的生成、音訊到音訊的轉換、音訊修復和文字引導的音訊風格轉換。
擴散在這個模型中扮演什麼角色？
擴散模型透過遵循文字輸入引導的反向擴散過程，幫助將隨機雜訊逐漸轉換為連貫的音訊訊號。
該模型是開源的嗎？
是的，程式碼和模型檢查點旨在開源，允許研究社群存取和建構該專案。
運行 Auffusion 需要什麼硬體？
該模型已經在單一A6000 GPU上進行了訓練；但是，效能可能會因您的硬體和特定設定而異。
我如何嘗試使用 Auffusion 產生音訊？
您可以執行提供的推理程式碼或使用 Colab 筆記本從您自己的文字提示產生音訊樣本。
什麼是 Audio InPainting？
Audio InPainting 是填滿音訊片段缺失部分的過程，確保無縫過渡並保持整體聲音的完整性。
我可以將該模型用於商業目的嗎？
使用權取決於模型的許可證；請查看儲存庫授權和隨附文件以了解商業使用指南。
我怎麼能為 Auffusion 計畫做出貢獻？
您可以透過報告問題、建議改進或透過專案的 GitHub 儲存庫提交拉取請求來做出貢獻。