Auffusion：次世代のテキストから音声への生成モデル

2発の銃声が鳴り、鳥のさえずりが続いた。

犬が吠えている

雷鳴と稲妻が轟く中、スタジアムで応援する人々

最先端の技術を探索 テキストから音声へ, オーディオからオーディオへそして オーディオインペインティング 拡散と大規模言語モデルを活用した技術。

1 ナビゲーション

2 論文の概要

Auffusion: 拡散と大規模言語モデルの力を活用してテキストから音声を生成する

Jinlong Xue、Yayue Deng、Yingming Gao、Ya Li
1、北京郵電大学、北京、中国

ArXivの論文 | GitHub のコード | 抱きしめる顔

2.1 概要

拡散モデルと大規模言語モデル (LLM) の最近の進歩により、AIGC の分野は大きく前進しました。 テキストから音声へ (TTA) は、自然言語プロンプトからオーディオを生成するように設計された急成長中の AIGC アプリケーションであり、ますます注目を集めています。ただし、既存の TTA 研究では、特に複雑なテキスト入力の場合、生成品質とテキストとオーディオのアライメントに苦労することがよくあります。最先端の Text-to-Image (T2I) 拡散モデルからインスピレーションを得て、Auffusion を紹介します。これは、固有の生成の強みと正確なクロスモーダルアライメントを活用して、T2I モデルフレームワークをオーディオ生成に適応させる TTA システムです。客観的および主観的な評価により、限られたデータと計算リソースを使用する場合でも、Auffusion は以前の TTA アプローチを上回っていることが実証されています。包括的なアブレーション研究と革新的なクロスアテンションマップの視覚化により、その優れたテキストとオーディオのアライメントがさらに示され、オーディオスタイルの転送、インペインティング、その他の操作などの関連タスクに役立ちます。

2.2 注記

Auffusion は、テキスト条件付きのサウンド効果、人間の音声、音楽を生成します。
潜在拡散モデル (LDM) は、クロスアテンションを使用した安定拡散に基づいて、単一の A6000 GPU でトレーニングされます。
強力なテキストとオーディオのアライメントにより、テキストガイドによるオーディオスタイルの転送、インペインティング、および注意に基づく再重み付け/置換操作が可能になります。

2.3 図1: Auffusionアーキテクチャの概要

トレーニングと推論のプロセスには、オーディオ、スペクトログラム、ピクセル、潜在空間の 4 つの特徴空間間の変換が含まれます。U-Net は、事前トレーニング済みのテキストから画像への LDM を使用して初期化されることに注意してください。

3 目次

4 テキストから音声への生成

4.1 短いサンプル:

2発の銃声に続いて鳥のさえずりが聞こえる / 犬が吠える / スタジアムで雷鳴が轟く中、人々が歓声を上げる

4.2 音響環境制御：

男が大きな部屋で話している / 男が小さな部屋で話している / 男がスタジオで話している

4.3 材料管理:

木製のテーブルでトマトを切る / 木製のテーブルで肉を切る / 金属製のテーブルでジャガイモを切る

4.4 ピッチコントロール:

低ピッチの正弦波 / 中ピッチの正弦波 / 高ピッチの正弦波

4.5 時間的順序制御:

レーシングカーが通り過ぎて消えていく / 2発の銃声が鳴り、続いて鳥がさえずりながら飛び去っていく / 木のテーブルを叩く音に続いて水が注がれる音が聞こえる

4.6 ラベルからオーディオへの生成:

サイレン / 雷鳴 / ブーブー
爆発 / 拍手 / おなら
チェーンソー / 花火 / 鶏、雄鶏
無条件生成: 「ヌル」

5 ChatGPT テキストプロンプトによる TTA 生成

花が咲く庭で鳥が優しく歌っている
注目を求めて鳴く子猫
魔法の森に響き渡る魔法の妖精の笑い声
就寝前に語られる物語のささやき
大きな原子爆弾が頭に当たる前に笑う猿
メモ帳に鉛筆で落書きする
池の水しぶき
貯金箱の中でカチャカチャと音を立てるコイン
スタジオで子供が口笛を吹いている
遠くの教会の鐘が正午を告げる
交通渋滞で鳴る車のクラクション
イライラしてガラスを割る怒った子供たち
カタカタと音を立てる旧式のタイプライター
最も狂気的で下劣な光景に叫ぶ少女
遠くで汽笛が鳴る

6 複数イベントの比較

テキスト記述 vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

時計が時を刻むと同時に鐘が鳴り、テレビのスピーカーから男性が話し、続いてくぐもった鐘が鳴る。
モーターのブンブンという音と男性が話している
ジェット機が飛び去る中、機関銃の連続発砲と銃声2発が鳴り響き、その後に柔らかな音楽が流れる。
女性が話し、少女が話し、拍手し、ガラガラ音が中断し、その後笑い声が続く
紙がカサカサする音、プラスチックがきしむ音、そしてトイレの水を流す音が聞こえる中、男性が話している。
背景では人々が話したり笑ったりする中、雨が降っている
人々は重々しく歩き、立ち止まり、足を滑らせ、歩き、立ち止まり、そして再び歩き始める

7 クロスアテンションマップの比較

比較対象は次のとおりです。
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / タンゴ。

8 テキストガイド付きオーディオスタイル転送

例:

猫の叫び声からカーレースまで。
鳥のさえずりから救急車のサイレンまで。
赤ちゃんの泣き声から猫の鳴き声まで。

その他のコメント

比較を容易にするために、オーディオ生成モデルのトレーニングと評価をオープンソース化するために、GitHub でコードを共有します。
データ関連の著作権問題を確認中です。その後、事前トレーニング済みモデルが公開される予定です。

今後の機能強化

デモウェブサイトとarXivリンクを公開します。
Auffusion および Auffusion-Full チェックポイントを公開します。
テキストガイドによるスタイル転送を追加します。
オーディオからオーディオへの生成を追加します。
オーディオ修復を追加します。
注意ベースの単語スワップと再重み付け制御 (prompt2prompt ベース) を追加します。
オーディオの超解像度を追加します。
オーディオからオーディオへの変換、インペインティング、スタイル転送、超解像度を統合した Gradio Web アプリケーションを構築します。
データの前処理とトレーニングコードを追加します。

了承

このウェブサイトは、オーディオLDM GitHub.

よくある質問

Auffusionとは何ですか?
Auffusion は、拡散モデルと大規模言語モデルを活用してテキストプロンプトから高品質のオーディオを作成する最先端のテキストからオーディオへの生成モデルです。
テキストから音声への生成はどのように機能しますか?
このシステムは、潜在拡散モデルを使用してテキスト埋め込みをオーディオ特徴空間にマッピングすることで、テキストの説明をオーディオに変換し、高い忠実度と正確なアライメントを保証します。
Auffusion の中心的な機能は何ですか?
Auffusion は、テキストからオーディオへの生成、オーディオからオーディオへの変換、オーディオの修復、テキストガイドによるオーディオスタイルの転送をサポートします。
このモデルでは拡散はどのような役割を果たすのでしょうか?
拡散モデルは、テキスト入力によってガイドされる逆拡散プロセスに従うことで、ランダムノイズをコヒーレントなオーディオ信号に徐々に変換するのに役立ちます。
モデルはオープンソースですか?
はい、コードとモデルのチェックポイントはオープンソース化されることになっており、研究コミュニティがプロジェクトにアクセスして構築できるようになります。
Auffusion を実行するにはどのようなハードウェアが必要ですか?
モデルは単一の A6000 GPU でトレーニングされていますが、パフォーマンスはハードウェアと特定の設定によって異なる場合があります。
Auffusion でオーディオを生成するにはどうすればいいですか?
提供されている推論コードを実行するか、Colab ノートブックを使用して独自のテキストプロンプトからオーディオサンプルを生成することができます。
Audio InPainting とは何ですか?
オーディオインペインティングは、オーディオクリップの欠落部分を埋めて、シームレスなトランジションを保証し、全体的なサウンドの整合性を維持するプロセスです。
モデルを商用目的で使用できますか?
使用権はモデルのライセンスによって異なります。商用利用のガイドラインについては、リポジトリライセンスと付属のドキュメントを確認してください。
Auffusion プロジェクトに貢献するにはどうすればいいですか?
プロジェクトの GitHub リポジトリ経由で問題を報告したり、改善を提案したり、プルリクエストを送信したりすることで貢献できます。