Dua tembakan diikuti oleh kicauan burung

Seekor anjing menggonggong

Orang-orang bersorak di stadion saat guntur dan kilat menyambar

Jelajahi teknologi terkini Teks ke Audioaudio ke audio, Dan Audio Dalam Lukisan teknik yang didukung oleh difusi dan model bahasa yang besar.

1 Navigasi

2 Tinjauan Makalah

Auffusion: Memanfaatkan Kekuatan Difusi dan Model Bahasa Besar untuk Generasi Teks-ke-Audio

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universitas Pos dan Telekomunikasi Beijing, Beijing, Tiongkok

Makalah tentang ArXiv | Kode di GitHub | Wajah Pelukan

2.1 Abstrak

Kemajuan terkini dalam model difusi dan model bahasa besar (LLM) telah secara signifikan mendorong bidang AIGC. Teks ke Audio (TTA), aplikasi AIGC yang sedang berkembang yang dirancang untuk menghasilkan audio dari perintah bahasa alami, semakin menarik perhatian. Namun, studi TTA yang ada sering kali mengalami kesulitan dengan kualitas pembuatan dan penyelarasan teks-audio, terutama untuk masukan tekstual yang kompleks. Mengambil inspirasi dari model difusi Teks-ke-Gambar (T2I) yang canggih, kami memperkenalkan Auffusion—sistem TTA yang mengadaptasi kerangka kerja model T2I untuk pembuatan audio dengan memanfaatkan kekuatan generatif yang melekat dan penyelarasan lintas-moda yang tepat. Evaluasi objektif dan subjektif menunjukkan bahwa Auffusion melampaui pendekatan TTA sebelumnya, bahkan saat menggunakan data dan sumber daya komputasi yang terbatas. Studi ablasi yang komprehensif dan visualisasi peta perhatian silang yang inovatif semakin memamerkan penyelarasan teks-audio yang unggul, yang menguntungkan tugas-tugas terkait seperti transfer gaya audio, inpainting, dan manipulasi lainnya.

2.2 Catatan

  • Auffusion menghasilkan efek suara bersyarat teks, ucapan manusia, dan musik.
  • Model difusi laten (LDM) dilatih pada satu GPU A6000, berdasarkan Difusi Stabil menggunakan perhatian silang.
  • Penyelarasan teks-audio yang kuat memungkinkan pemindahan gaya audio yang dipandu teks, pengecatan internal, dan manipulasi pemberian bobot/penggantian berbasis perhatian.

2.3 Gambar 1: Tinjauan Arsitektur Auffusion

Proses pelatihan dan inferensi melibatkan transformasi bolak-balik antara empat ruang fitur: audio, spektrogram, piksel, dan ruang laten. Perhatikan bahwa U-Net diinisialisasi dengan LDM teks-ke-gambar yang telah dilatih sebelumnya.

3 Daftar Isi

4 Pembuatan Teks ke Audio

4.1 Contoh Singkat:

  • Dua tembakan diikuti oleh kicauan burung / Seekor anjing menggonggong / Orang-orang bersorak di stadion sementara guntur dan kilat menyambar

4.2 Kontrol Lingkungan Akustik:

  • Seorang pria sedang berbicara di sebuah ruangan besar / Seorang pria sedang berbicara di sebuah ruangan kecil / Seorang pria sedang berbicara di sebuah studio

4.3 Pengendalian Material:

  • Memotong tomat di atas meja kayu / Memotong daging di atas meja kayu / Memotong kentang di atas meja logam

4.4 Kontrol Pitch:

  • Gelombang sinus dengan nada rendah / Gelombang sinus dengan nada sedang / Gelombang sinus dengan nada tinggi

4.5 Kontrol Tatanan Temporal:

  • Mobil balap lewat dan menghilang / Dua kali tembakan diikuti burung terbang sambil berkicau / Suara ketukan meja kayu diikuti suara air mengalir

4.6 Pembuatan Label ke Audio:

  • Sirene / Guntur / Oink
  • Ledakan / Tepuk Tangan / Kentut
  • Gergaji mesin / Kembang api / Ayam, ayam jantan
  • Generasi Tanpa Syarat: "Batal"

5 Pembuatan TTA dengan Prompt Teks ChatGPT

  • Burung-burung berkicau merdu di taman yang sedang berbunga
  • Seekor anak kucing mengeong untuk mendapatkan perhatian
  • Tawa peri ajaib bergema melalui hutan ajaib
  • Bisikan lembut cerita pengantar tidur sedang diceritakan
  • Seekor monyet tertawa sebelum kepalanya terkena bom atom besar
  • Sebuah pensil mencoret-coret buku catatan
  • Percikan air di kolam
  • Koin berdenting di celengan
  • Seorang anak bersiul di studio
  • Lonceng gereja yang jauh berdentang di siang hari
  • Klakson mobil berbunyi di tengah kemacetan
  • Anak-anak yang marah memecahkan kaca karena frustrasi
  • Mesin ketik kuno berdenting
  • Seorang gadis berteriak pada pemandangan paling gila dan keji
  • Peluit kereta api berbunyi di kejauhan

6 Perbandingan Multi Event

Deskripsi Teks vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • Sebuah lonceng berdentang saat jam berdetik dan seorang pria berbicara melalui pengeras suara televisi di latar belakang diikuti oleh bunyi lonceng yang teredam
  • Suara dengung dan dengungan dari sebuah motor dengan seorang pria berbicara
  • Serangkaian tembakan senapan mesin dan dua tembakan dilepaskan saat sebuah pesawat jet terbang diikuti oleh alunan musik lembut
  • Wanita berbicara, gadis berbicara, tepuk tangan, suara serak menyela, diikuti oleh tawa
  • Seorang pria berbicara ketika kertas berkerut diikuti oleh plastik berderit lalu toilet disiram
  • Hujan turun saat orang-orang berbicara dan tertawa di latar belakang
  • Orang berjalan dengan berat, berhenti, menggeser kaki mereka, berjalan, berhenti, dan mulai berjalan lagi

7 Perbandingan Peta Perhatian Silang

Perbandingannya meliputi:
Auffusion-tanpa-pretrain / Auffusion-w-klip / Auffusion-w-tepuk / Auffusion-w-flant5 / Tango.

8 Transfer Gaya Audio Panduan Teks

Contoh:

  • Dari kucing yang menjerit hingga mobil balap.
  • Dari kicauan burung hingga sirene ambulans.
  • Dari tangisan bayi hingga kucing mengeong.

Komentar Lainnya

  1. Kami akan membagikan kode kami di GitHub untuk membuka sumber pelatihan dan evaluasi model pembangkitan audio guna memudahkan perbandingan.
  2. Kami sedang mengonfirmasikan masalah hak cipta terkait data, setelah itu model yang telah dilatih akan dirilis.

Peningkatan di Masa Depan

  • Publikasikan situs web demo dan tautan arXiv.
  • Publikasikan titik pemeriksaan Auffusion dan Auffusion-Full.
  • Tambahkan transfer gaya yang dipandu teks.
  • Tambahkan generasi audio-ke-audio.
  • Tambahkan audio dalam lukisan.
  • Tambahkan pertukaran kata berbasis perhatian dan kontrol pembobotan ulang (berbasis prompt2prompt).
  • Tambahkan resolusi audio super.
  • Bangun aplikasi web Gradio yang mengintegrasikan audio-ke-audio, inpainting, transfer gaya, dan resolusi super.
  • Tambahkan praproses data dan kode pelatihan.

Pengakuan

Situs web ini dibuat berdasarkan karya di AudioLDM GitHub.

PERTANYAAN YANG SERING DIAJUKAN

  1. Apa itu Auffusion?
    Auffusion adalah model pembangkitan teks ke audio canggih yang memanfaatkan model difusi dan model bahasa besar untuk menciptakan audio berkualitas tinggi dari perintah tekstual.
  2. Bagaimana cara kerja pembuatan Teks-ke-Audio?
    Sistem ini mengubah deskripsi tekstual menjadi audio dengan memetakan penempatan teks ke dalam ruang fitur audio menggunakan model difusi laten, yang memastikan kesetiaan tinggi dan penyelarasan yang tepat.
  3. Apa saja fitur inti Auffusion?
    Auffusion mendukung pembuatan Teks-ke-Audio, transformasi audio-ke-audio, inpainting audio, dan transfer gaya audio yang dipandu teks.
  4. Apa peran difusi dalam model ini?
    Model difusi membantu secara bertahap mengubah gangguan acak menjadi sinyal audio yang koheren dengan mengikuti proses difusi terbalik yang dipandu oleh masukan tekstual.
  5. Apakah modelnya sumber terbuka?
    Ya, titik pemeriksaan kode dan model dimaksudkan untuk dijadikan sumber terbuka, sehingga memungkinkan komunitas penelitian untuk mengakses dan mengembangkan proyek tersebut.
  6. Perangkat keras apa yang dibutuhkan untuk menjalankan Auffusion?
    Model ini telah dilatih pada satu GPU A6000; namun, kinerjanya dapat bervariasi bergantung pada perangkat keras dan pengaturan spesifik Anda.
  7. Bagaimana saya dapat mencoba menghasilkan audio dengan Auffusion?
    Anda dapat menjalankan kode inferensi yang disediakan atau menggunakan buku catatan Colab untuk menghasilkan sampel audio dari perintah teks Anda sendiri.
  8. Apa itu Audio InPainting?
    Audio InPainting adalah proses mengisi bagian yang hilang pada klip audio, memastikan transisi yang mulus dan menjaga integritas suara secara keseluruhan.
  9. Dapatkah saya menggunakan model tersebut untuk tujuan komersial?
    Hak penggunaan bergantung pada lisensi model; silakan meninjau lisensi repositori dan dokumentasi yang menyertainya untuk pedoman penggunaan komersial.
  10. Bagaimana saya dapat berkontribusi pada proyek Auffusion?
    Anda dapat berkontribusi dengan melaporkan masalah, menyarankan perbaikan, atau mengirimkan permintaan tarik melalui repositori GitHub proyek.