To skudd etterfulgt av fuglekvitter

En hund bjeffer

Folk som heier på et stadion mens rullende torden og lynnedslag

Utforsk state-of-the-art Tekst-til-lydlyd-til-lyd, og Audio InPainting teknikker drevet av diffusjon og store språkmodeller.

1 Navigasjon

2 Papiroversikt

Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Beijing University of Post and Telecommunications, Beijing, Kina

Papir på ArXiv | Kode på GitHub | Klemende ansikt

2.1 Abstrakt

Nylige fremskritt innen diffusjonsmodeller og store språkmodeller (LLMs) har drevet AIGC-feltet betydelig. Tekst-til-lyd (TTA), en spirende AIGC-applikasjon designet for å generere lyd fra naturlige språkoppfordringer, tiltrekker seg økende oppmerksomhet. Imidlertid sliter eksisterende TTA-studier ofte med generasjonskvalitet og tekst-lydjustering, spesielt for komplekse tekstinndata. Med inspirasjon fra toppmoderne tekst-til-bilde-diffusjonsmodeller (T2I) introduserer vi Auffusion – et TTA-system som tilpasser T2I-modellrammeverk for lydgenerering ved å utnytte iboende generative styrker og presis kryss-modal justering. Objektive og subjektive evalueringer viser at Auffusion overgår tidligere TTA-tilnærminger, selv når man bruker begrensede data og beregningsressurser. Omfattende ablasjonsstudier og nyskapende kartvisualiseringer med kryssoppmerksomhet viser ytterligere frem dens overlegne tekst-lydjustering, og drar nytte av relaterte oppgaver som lydstiloverføring, maling og andre manipulasjoner.

2.2 Merk

  • Auffusion genererer tekstbetingede lydeffekter, menneskelig tale og musikk.
  • Den latente diffusjonsmodellen (LDM) er trent på en enkelt A6000 GPU, basert på stabil diffusjon ved bruk av kryssoppmerksomhet.
  • Dens sterke tekst-lyd-justering muliggjør tekst-veiledet lydstiloverføring, maling og oppmerksomhetsbasert omvekting/erstatningsmanipulering.

2.3 Figur 1: Oversikt over Auffusion Architecture

Trenings- og slutningsprosessen involverer transformasjoner frem og tilbake mellom fire funksjonsrom: lyd, spektrogram, piksel og latent rom. Merk at U-Net er initialisert med en forhåndsopplært tekst-til-bilde LDM.

3 Innholdsfortegnelse

4 Tekst-til-lyd generering

4.1 Korte eksempler:

  • To skudd etterfulgt av fuglekvitter / En hund bjeffer / Folk som jubler på et stadion mens rullende torden og lyn slår ned

4.2 Kontroll av akustisk miljø:

  • En mann snakker i et stort rom / En mann snakker i et lite rom / En mann snakker i et studio

4.3 Materialkontroll:

  • Hakke tomater på et trebord / Hakke kjøtt på et trebord / Hakke poteter på et metallbord

4.4 Tonehøydekontroll:

  • Sinusbølge med lav stigning / Sinusbølge med middels stigning / Sinusbølge med høy stigning

4.5 Tidsmessig ordrekontroll:

  • En racerbil går forbi og forsvinner / To skudd etterfulgt av fugler som flyr bort mens de kvitrer / Trebords bankelyd etterfulgt av vann som strømmer lyd

4.6 Label-til-lyd-generering:

  • Sirene / Thunder / Oink
  • Eksplosjon / Applaus / prut
  • Motorsag / Fyrverkeri / Kylling, hane
  • Ubetinget generasjon: "Null"

5 TTA-generering med ChatGPT-tekstmelding

  • Fugler som synger søtt i en blomstrende hage
  • En kattunge som mekker etter oppmerksomhet
  • Magiske fe-latter gjenlyder gjennom en fortryllet skog
  • Myk hvisking av en godnatthistorie som blir fortalt
  • En ape ler før han blir truffet i hodet av en stor atombombe
  • En blyant som skribler på en notisblokk
  • Vannsprut i en dam
  • Mynter klirrer i en sparegris
  • Et barn plystrer i et studio
  • En fjern kirkeklokke som ringer middag
  • Et bilhorn som tuter i trafikken
  • Sinte barn som knuser glass i frustrasjon
  • En gammeldags skrivemaskin som klapper
  • En jente som skriker ved det mest demente og sjofele synet
  • En togfløyte blåser i det fjerne

6 Sammenligning av flere hendelser

Tekstbeskrivelser vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • En bjelle som ringer mens en klokke tikker og en mann snakker gjennom en TV-høyttaler i bakgrunnen etterfulgt av en dempet bjelle som ringer
  • Summing og summing av en motor med en mann som snakker
  • En serie med maskingevær og to skudd som skytes mens et jetfly flyr forbi etterfulgt av myk musikk
  • Kvinne snakker, jente snakker, klapping, kvekende støy avbryter, etterfulgt av latter
  • En mann som snakker mens papiret krøller, etterfulgt av knirking av plast og deretter et toalett som spyler
  • Regnet faller mens folk snakker og ler i bakgrunnen
  • Folk går tungt, pauser, skyver føttene, går, stopper og begynner å gå igjen

7 Kryss oppmerksomhet kart sammenligning

Sammenligninger inkluderer:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.

8 Tekstveiledet lydstiloverføring

Eksempler:

  • Fra katteskriking til billøp.
  • Fra fuglekvitter til ambulansesirene.
  • Fra babygråt til katt som mjauer.

Andre kommentarer

  1. Vi vil dele koden vår på GitHub for å åpne kildekode for opplæring og evaluering av lydgenereringsmodellen for enklere sammenligning.
  2. Vi bekrefter de datarelaterte opphavsrettsproblemene, hvoretter de forhåndstrente modellene vil bli utgitt.

Fremtidige forbedringer

  • Publiser demonettstedet og arXiv-lenken.
  • Publiser Auffusion og Auffusion-Full sjekkpunkter.
  • Legg til tekstveiledet stiloverføring.
  • Legg til lyd-til-lyd-generering.
  • Legg til lydmaleri.
  • Legg til oppmerksomhetsbasert ordbytte og revektkontroll (prompt2prompt-basert).
  • Legg til superoppløsning for lyd.
  • Bygg en Gradio-nettapplikasjon som integrerer lyd-til-lyd, maling, stiloverføring og superoppløsning.
  • Legg til dataforbehandling og opplæringskode.

Bekreftelse

Denne nettsiden er laget basert på arbeidet på AudioLDM GitHub.

FAQ

  1. Hva er Auffusion?
    Auffusion er en toppmoderne tekst-til-lyd-generasjonsmodell som utnytter diffusjonsmodeller og store språkmodeller for å lage høykvalitetslyd fra tekstmeldinger.
  2. Hvordan fungerer tekst-til-lyd-generering?
    Systemet forvandler tekstbeskrivelser til lyd ved å kartlegge tekstinnbygginger til lydfunksjonsrom ved å bruke en latent diffusjonsmodell, noe som sikrer høy troverdighet og presis justering.
  3. Hva er kjernetrekkene til Auffusion?
    Auffusion støtter tekst-til-lyd-generering, lyd-til-lyd-transformasjon, lydinnredning og tekstveiledet lydstiloverføring.
  4. Hvilken rolle spiller diffusjon i denne modellen?
    Diffusjonsmodeller hjelper til med å gradvis transformere tilfeldig støy til koherente lydsignaler ved å følge den omvendte diffusjonsprosessen guidet av tekstinndata.
  5. Er modellen åpen kildekode?
    Ja, kode- og modellsjekkpunktene er ment å være åpen kildekode, slik at forskningsmiljøet kan få tilgang til og bygge videre på prosjektet.
  6. Hvilken maskinvare kreves for å kjøre Auffusion?
    Modellen har blitt trent på en enkelt A6000 GPU; ytelsen kan imidlertid variere avhengig av maskinvaren og spesifikke oppsett.
  7. Hvordan kan jeg prøve å generere lyd med Auffusion?
    Du kan kjøre den medfølgende slutningskoden eller bruke Colab-notatbøkene til å generere lydprøver fra dine egne tekstmeldinger.
  8. Hva er Audio InPainting?
    Audio InPainting er prosessen med å fylle ut manglende deler av et lydklipp, for å sikre sømløse overganger og opprettholde den generelle lydintegriteten.
  9. Kan jeg bruke modellen til kommersielle formål?
    Bruksrettigheter avhenger av modellens lisens; vennligst se gjennom depotlisensen og den medfølgende dokumentasjonen for retningslinjer for kommersiell bruk.
  10. Hvordan kan jeg bidra til Auffusion-prosjektet?
    Du kan bidra ved å rapportere problemer, foreslå forbedringer eller sende inn pull-forespørsler via prosjektets GitHub-depot.