Due colpi di pistola seguiti dal cinguettio degli uccelli

Un cane sta abbaiando

Persone che applaudono in uno stadio mentre tuoni e fulmini rimbombano

Esplora lo stato dell'arte Da testo ad audioaudio-audio, e Audio InPittura tecniche basate sulla diffusione e su modelli linguistici di grandi dimensioni.

1 Navigazione

2 Panoramica della carta

Auffusion: sfruttare la potenza della diffusione e dei modelli linguistici di grandi dimensioni per la generazione di testo in audio

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Università di Poste e Telecomunicazioni di Pechino, Pechino, Cina

Articolo su ArXiv | Codice su GitHub | Faccia abbracciata

2.1 Riassunto

I recenti progressi nei modelli di diffusione e nei modelli linguistici di grandi dimensioni (LLM) hanno dato un notevole impulso al campo dell'AIGC. Da testo ad audio (TTA), un'applicazione AIGC in rapida crescita progettata per generare audio da prompt in linguaggio naturale, sta attirando sempre più attenzione. Tuttavia, gli studi TTA esistenti spesso hanno difficoltà con la qualità della generazione e l'allineamento testo-audio, in particolare per input testuali complessi. Traendo ispirazione dai modelli di diffusione Text-to-Image (T2I) all'avanguardia, introduciamo Auffusion, un sistema TTA che adatta i framework del modello T2I per la generazione audio sfruttando i punti di forza generativi intrinseci e l'allineamento cross-modale preciso. Valutazioni oggettive e soggettive dimostrano che Auffusion supera i precedenti approcci TTA, anche quando si utilizzano dati e risorse computazionali limitati. Studi completi di ablazione e innovative visualizzazioni di mappe di attenzione incrociata mostrano ulteriormente il suo allineamento testo-audio superiore, a vantaggio di attività correlate come il trasferimento dello stile audio, l'inpainting e altre manipolazioni.

2.2 Nota

  • Auffusion genera effetti sonori condizionati dal testo, parlato umano e musica.
  • Il modello di diffusione latente (LDM) viene addestrato su una singola GPU A6000, sulla base della diffusione stabile utilizzando l'attenzione incrociata.
  • Il suo solido allineamento testo-audio consente il trasferimento dello stile audio guidato dal testo, l'inpainting e le manipolazioni di riponderazione/sostituzione basate sull'attenzione.

2.3 Figura 1: Panoramica dell'architettura di affusione

Il processo di training e inferenza comporta trasformazioni avanti e indietro tra quattro spazi di feature: audio, spettrogramma, pixel e spazio latente. Si noti che U-Net è inizializzato con un LDM testo-immagine pre-addestrato.

3 Indice

4 Generazione di testo in audio

4.1 Brevi campioni:

  • Due spari seguiti dal cinguettio degli uccelli / Un cane abbaia / Persone che applaudono in uno stadio mentre tuoni e fulmini rimbombano

4.2 Controllo dell'ambiente acustico:

  • Un uomo parla in una stanza enorme / Un uomo parla in una stanza piccola / Un uomo parla in uno studio

4.3 Controllo del materiale:

  • Tagliare i pomodori su un tavolo di legno / Tagliare la carne su un tavolo di legno / Tagliare le patate su un tavolo di metallo

4.4 Controllo del tono:

  • Onda sinusoidale con tono basso / Onda sinusoidale con tono medio / Onda sinusoidale con tono alto

4.5 Controllo dell'ordine temporale:

  • Un'auto da corsa passa e scompare / Due colpi di pistola seguiti da uccelli che volano via cinguettando / Il suono del tavolo di legno che tocca seguito dal suono dell'acqua che scorre

4.6 Generazione etichetta-audio:

  • Sirena / Tuono / Grugnito
  • Esplosione / Applausi / Scoreggia
  • Motosega / Fuochi d'artificio / Pollo, gallo
  • Generazione incondizionata: “Nulla”

5 Generazione TTA con richiesta di testo ChatGPT

  • Uccelli che cantano dolcemente in un giardino fiorito
  • Un gattino che miagola per attirare l'attenzione
  • La risata magica delle fate riecheggia attraverso una foresta incantata
  • Dolci sussurri di una favola della buonanotte raccontata
  • Una scimmia ride prima di essere colpita alla testa da una grande bomba atomica
  • Una matita che scarabocchia su un blocco note
  • Lo schianto dell'acqua in uno stagno
  • Monete che tintinnano in un salvadanaio
  • Un bambino fischietta in uno studio
  • Una campana di chiesa lontana che suona mezzogiorno
  • Il clacson di un'auto che suona nel traffico
  • Bambini arrabbiati rompono il vetro per la frustrazione
  • Una vecchia macchina da scrivere che scricchiola
  • Una ragazza che urla alla vista più demente e vile
  • Un fischio di treno che soffia in lontananza

6 Confronto multi-evento

Descrizioni di testo vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • Una campana che suona mentre un orologio ticchetta e un uomo parla attraverso un altoparlante televisivo sullo sfondo, seguito da una campana che suona attutita
  • Ronzio e mormorio di un motore con un uomo che parla
  • Una serie di mitragliatrici e due colpi di pistola sparati mentre un aereo a reazione vola, seguiti da una musica soft.
  • La donna parla, la ragazza parla, applausi, rumore di gracidio interrotto, seguito da risate
  • Un uomo che parla mentre la carta scricchiola, seguita dallo scricchiolio della plastica e poi dallo scarico del water
  • La pioggia cade mentre la gente parla e ride sullo sfondo
  • Le persone camminano pesantemente, si fermano, scivolano i piedi, camminano, si fermano e ricominciano a camminare.

7 Confronto tra mappe di attenzione incrociata

I confronti includono:
Auffusione senza pre-allenamento / Auffusione con clip / Auffusione con battito di mani / Auffusione con flant5 / Tango.

8 Trasferimento di stile audio guidato dal testo

Esempi:

  • Dai gatti che urlano alle corse automobilistiche.
  • Dal cinguettio degli uccelli alla sirena dell'ambulanza.
  • Dal pianto del bambino al miagolio del gatto.

Altri commenti

  1. Condivideremo il nostro codice su GitHub per rendere open source il modello di formazione e valutazione della generazione audio, in modo da semplificare il confronto.
  2. Stiamo verificando i problemi di copyright relativi ai dati, dopodiché verranno rilasciati i modelli preaddestrati.

Miglioramenti futuri

  • Pubblica il sito web dimostrativo e il link arXiv.
  • Pubblicare i checkpoint Auffusion e Auffusion-Full.
  • Aggiungere il trasferimento di stile guidato dal testo.
  • Aggiungere la generazione audio-audio.
  • Aggiungere l'integrazione audio.
  • Aggiungere lo scambio di parole basato sull'attenzione e il controllo del peso (basato su prompt2prompt).
  • Aggiungi audio super-risoluzione.
  • Crea un'applicazione web Gradio che integri audio-audio, inpainting, trasferimento di stile e super-risoluzione.
  • Aggiungere codice di pre-elaborazione e formazione dei dati.

Riconoscimento

Questo sito web è stato creato sulla base del lavoro svolto presso GitHub di AudioLDM.

Domande frequenti

  1. Che cosa è l'auffusione?
    Auffusion è un modello all'avanguardia di generazione di testo in audio che sfrutta modelli di diffusione e modelli linguistici di grandi dimensioni per creare audio di alta qualità a partire da prompt testuali.
  2. Come funziona la generazione di testo in audio?
    Il sistema trasforma le descrizioni testuali in audio mappando gli incorporamenti di testo negli spazi delle caratteristiche audio mediante un modello di diffusione latente, garantendo elevata fedeltà e allineamento preciso.
  3. Quali sono le caratteristiche principali di Auffusion?
    Auffusion supporta la generazione di testo in audio, la trasformazione da audio ad audio, l'inpainting audio e il trasferimento di stili audio guidati dal testo.
  4. Quale ruolo gioca la diffusione in questo modello?
    I modelli di diffusione aiutano a trasformare gradualmente il rumore casuale in segnali audio coerenti seguendo il processo di diffusione inversa guidato dagli input testuali.
  5. Il modello è open source?
    Sì, il codice e i punti di controllo del modello sono concepiti per essere open source, consentendo alla comunità di ricerca di accedere al progetto e di svilupparlo ulteriormente.
  6. Quale hardware è necessario per eseguire Auffusion?
    Il modello è stato addestrato su una singola GPU A6000; tuttavia, le prestazioni possono variare a seconda dell'hardware e della configurazione specifica.
  7. Come posso provare a generare audio con Auffusion?
    È possibile eseguire il codice di inferenza fornito o utilizzare i notebook Colab per generare campioni audio dai propri prompt di testo.
  8. Che cos'è Audio InPainting?
    Audio InPainting è il processo di riempimento delle parti mancanti di una clip audio, garantendo transizioni fluide e mantenendo l'integrità complessiva del suono.
  9. Posso utilizzare il modello per scopi commerciali?
    I diritti di utilizzo dipendono dalla licenza del modello; consultare la licenza del repository e la documentazione allegata per le linee guida sull'utilizzo commerciale.
  10. Come posso contribuire al progetto Auffusion?
    Puoi contribuire segnalando problemi, suggerendo miglioramenti o inviando richieste pull tramite il repository GitHub del progetto.