Auffusion: neste generasjons tekst-til-lyd-generasjonsmodell

To skudd etterfulgt av fuglekvitter

En hund bjeffer

Folk som heier på et stadion mens rullende torden og lynnedslag

Utforsk state-of-the-art Tekst-til-lyd, lyd-til-lyd, og Audio InPainting teknikker drevet av diffusjon og store språkmodeller.

1 Navigasjon

Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering
Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering

2 Papiroversikt

Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Beijing University of Post and Telecommunications, Beijing, Kina

Papir på ArXiv | Kode på GitHub | Klemende ansikt

2.1 Abstrakt

Nylige fremskritt innen diffusjonsmodeller og store språkmodeller (LLMs) har drevet AIGC-feltet betydelig. Tekst-til-lyd (TTA), en spirende AIGC-applikasjon designet for å generere lyd fra naturlige språkoppfordringer, tiltrekker seg økende oppmerksomhet. Imidlertid sliter eksisterende TTA-studier ofte med generasjonskvalitet og tekst-lydjustering, spesielt for komplekse tekstinndata. Med inspirasjon fra toppmoderne tekst-til-bilde-diffusjonsmodeller (T2I) introduserer vi Auffusion – et TTA-system som tilpasser T2I-modellrammeverk for lydgenerering ved å utnytte iboende generative styrker og presis kryss-modal justering. Objektive og subjektive evalueringer viser at Auffusion overgår tidligere TTA-tilnærminger, selv når man bruker begrensede data og beregningsressurser. Omfattende ablasjonsstudier og nyskapende kartvisualiseringer med kryssoppmerksomhet viser ytterligere frem dens overlegne tekst-lydjustering, og drar nytte av relaterte oppgaver som lydstiloverføring, maling og andre manipulasjoner.

2.2 Merk

Auffusion genererer tekstbetingede lydeffekter, menneskelig tale og musikk.
Den latente diffusjonsmodellen (LDM) er trent på en enkelt A6000 GPU, basert på stabil diffusjon ved bruk av kryssoppmerksomhet.
Dens sterke tekst-lyd-justering muliggjør tekst-veiledet lydstiloverføring, maling og oppmerksomhetsbasert omvekting/erstatningsmanipulering.

2.3 Figur 1: Oversikt over Auffusion Architecture

Trenings- og slutningsprosessen involverer transformasjoner frem og tilbake mellom fire funksjonsrom: lyd, spektrogram, piksel og latent rom. Merk at U-Net er initialisert med en forhåndsopplært tekst-til-bilde LDM.

3 Innholdsfortegnelse

4 Tekst-til-lyd generering

4.1 Korte eksempler:

To skudd etterfulgt av fuglekvitter / En hund bjeffer / Folk som jubler på et stadion mens rullende torden og lyn slår ned

4.2 Kontroll av akustisk miljø:

En mann snakker i et stort rom / En mann snakker i et lite rom / En mann snakker i et studio

4.3 Materialkontroll:

Hakke tomater på et trebord / Hakke kjøtt på et trebord / Hakke poteter på et metallbord

4.4 Tonehøydekontroll:

Sinusbølge med lav stigning / Sinusbølge med middels stigning / Sinusbølge med høy stigning

4.5 Tidsmessig ordrekontroll:

En racerbil går forbi og forsvinner / To skudd etterfulgt av fugler som flyr bort mens de kvitrer / Trebords bankelyd etterfulgt av vann som strømmer lyd

4.6 Label-til-lyd-generering:

Sirene / Thunder / Oink
Eksplosjon / Applaus / prut
Motorsag / Fyrverkeri / Kylling, hane
Ubetinget generasjon: "Null"

5 TTA-generering med ChatGPT-tekstmelding

Fugler som synger søtt i en blomstrende hage
En kattunge som mekker etter oppmerksomhet
Magiske fe-latter gjenlyder gjennom en fortryllet skog
Myk hvisking av en godnatthistorie som blir fortalt
En ape ler før han blir truffet i hodet av en stor atombombe
En blyant som skribler på en notisblokk
Vannsprut i en dam
Mynter klirrer i en sparegris
Et barn plystrer i et studio
En fjern kirkeklokke som ringer middag
Et bilhorn som tuter i trafikken
Sinte barn som knuser glass i frustrasjon
En gammeldags skrivemaskin som klapper
En jente som skriker ved det mest demente og sjofele synet
En togfløyte blåser i det fjerne

6 Sammenligning av flere hendelser

Tekstbeskrivelser vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

En bjelle som ringer mens en klokke tikker og en mann snakker gjennom en TV-høyttaler i bakgrunnen etterfulgt av en dempet bjelle som ringer
Summing og summing av en motor med en mann som snakker
En serie med maskingevær og to skudd som skytes mens et jetfly flyr forbi etterfulgt av myk musikk
Kvinne snakker, jente snakker, klapping, kvekende støy avbryter, etterfulgt av latter
En mann som snakker mens papiret krøller, etterfulgt av knirking av plast og deretter et toalett som spyler
Regnet faller mens folk snakker og ler i bakgrunnen
Folk går tungt, pauser, skyver føttene, går, stopper og begynner å gå igjen

7 Kryss oppmerksomhet kart sammenligning

Sammenligninger inkluderer:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.

8 Tekstveiledet lydstiloverføring

Eksempler:

Fra katteskriking til billøp.
Fra fuglekvitter til ambulansesirene.
Fra babygråt til katt som mjauer.

Andre kommentarer

Vi vil dele koden vår på GitHub for å åpne kildekode for opplæring og evaluering av lydgenereringsmodellen for enklere sammenligning.
Vi bekrefter de datarelaterte opphavsrettsproblemene, hvoretter de forhåndstrente modellene vil bli utgitt.

Fremtidige forbedringer

Publiser demonettstedet og arXiv-lenken.
Publiser Auffusion og Auffusion-Full sjekkpunkter.
Legg til tekstveiledet stiloverføring.
Legg til lyd-til-lyd-generering.
Legg til lydmaleri.
Legg til oppmerksomhetsbasert ordbytte og revektkontroll (prompt2prompt-basert).
Legg til superoppløsning for lyd.
Bygg en Gradio-nettapplikasjon som integrerer lyd-til-lyd, maling, stiloverføring og superoppløsning.
Legg til dataforbehandling og opplæringskode.

Bekreftelse

Denne nettsiden er laget basert på arbeidet på AudioLDM GitHub.

FAQ

Hva er Auffusion?
Auffusion er en toppmoderne tekst-til-lyd-generasjonsmodell som utnytter diffusjonsmodeller og store språkmodeller for å lage høykvalitetslyd fra tekstmeldinger.
Hvordan fungerer tekst-til-lyd-generering?
Systemet forvandler tekstbeskrivelser til lyd ved å kartlegge tekstinnbygginger til lydfunksjonsrom ved å bruke en latent diffusjonsmodell, noe som sikrer høy troverdighet og presis justering.
Hva er kjernetrekkene til Auffusion?
Auffusion støtter tekst-til-lyd-generering, lyd-til-lyd-transformasjon, lydinnredning og tekstveiledet lydstiloverføring.
Hvilken rolle spiller diffusjon i denne modellen?
Diffusjonsmodeller hjelper til med å gradvis transformere tilfeldig støy til koherente lydsignaler ved å følge den omvendte diffusjonsprosessen guidet av tekstinndata.
Er modellen åpen kildekode?
Ja, kode- og modellsjekkpunktene er ment å være åpen kildekode, slik at forskningsmiljøet kan få tilgang til og bygge videre på prosjektet.
Hvilken maskinvare kreves for å kjøre Auffusion?
Modellen har blitt trent på en enkelt A6000 GPU; ytelsen kan imidlertid variere avhengig av maskinvaren og spesifikke oppsett.
Hvordan kan jeg prøve å generere lyd med Auffusion?
Du kan kjøre den medfølgende slutningskoden eller bruke Colab-notatbøkene til å generere lydprøver fra dine egne tekstmeldinger.
Hva er Audio InPainting?
Audio InPainting er prosessen med å fylle ut manglende deler av et lydklipp, for å sikre sømløse overganger og opprettholde den generelle lydintegriteten.
Kan jeg bruke modellen til kommersielle formål?
Bruksrettigheter avhenger av modellens lisens; vennligst se gjennom depotlisensen og den medfølgende dokumentasjonen for retningslinjer for kommersiell bruk.
Hvordan kan jeg bidra til Auffusion-prosjektet?
Du kan bidra ved å rapportere problemer, foreslå forbedringer eller sende inn pull-forespørsler via prosjektets GitHub-depot.