To skudd etterfulgt av fuglekvitter
En hund bjeffer
Folk som heier på et stadion mens rullende torden og lynnedslag
Utforsk state-of-the-art Tekst-til-lyd, lyd-til-lyd, og Audio InPainting teknikker drevet av diffusjon og store språkmodeller.
1 Navigasjon
- Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering
- Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering
2 Papiroversikt
Auffusion: Utnytte kraften til diffusjon og store språkmodeller for tekst-til-lyd-generering
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Beijing University of Post and Telecommunications, Beijing, Kina
Papir på ArXiv | Kode på GitHub | Klemende ansikt
2.1 Abstrakt
Nylige fremskritt innen diffusjonsmodeller og store språkmodeller (LLMs) har drevet AIGC-feltet betydelig. Tekst-til-lyd (TTA), en spirende AIGC-applikasjon designet for å generere lyd fra naturlige språkoppfordringer, tiltrekker seg økende oppmerksomhet. Imidlertid sliter eksisterende TTA-studier ofte med generasjonskvalitet og tekst-lydjustering, spesielt for komplekse tekstinndata. Med inspirasjon fra toppmoderne tekst-til-bilde-diffusjonsmodeller (T2I) introduserer vi Auffusion – et TTA-system som tilpasser T2I-modellrammeverk for lydgenerering ved å utnytte iboende generative styrker og presis kryss-modal justering. Objektive og subjektive evalueringer viser at Auffusion overgår tidligere TTA-tilnærminger, selv når man bruker begrensede data og beregningsressurser. Omfattende ablasjonsstudier og nyskapende kartvisualiseringer med kryssoppmerksomhet viser ytterligere frem dens overlegne tekst-lydjustering, og drar nytte av relaterte oppgaver som lydstiloverføring, maling og andre manipulasjoner.
2.2 Merk
- Auffusion genererer tekstbetingede lydeffekter, menneskelig tale og musikk.
- Den latente diffusjonsmodellen (LDM) er trent på en enkelt A6000 GPU, basert på stabil diffusjon ved bruk av kryssoppmerksomhet.
- Dens sterke tekst-lyd-justering muliggjør tekst-veiledet lydstiloverføring, maling og oppmerksomhetsbasert omvekting/erstatningsmanipulering.
2.3 Figur 1: Oversikt over Auffusion Architecture
Trenings- og slutningsprosessen involverer transformasjoner frem og tilbake mellom fire funksjonsrom: lyd, spektrogram, piksel og latent rom. Merk at U-Net er initialisert med en forhåndsopplært tekst-til-bilde LDM.
3 Innholdsfortegnelse
- Tekst-til-lyd generering
- TTA-generering med ChatGPT-tekstmelding
- Sammenligning av flere hendelser
- Kryss oppmerksomhet kart sammenligning
- Tekstveiledet lydstiloverføring
- Lydmaleri
- Oppmerksomhetsbasert erstatning
- Oppmerksomhetsbasert omvekting
- Andre kommentarer
- Fremtidige forbedringer
- FAQ
4 Tekst-til-lyd generering
4.1 Korte eksempler:
- To skudd etterfulgt av fuglekvitter / En hund bjeffer / Folk som jubler på et stadion mens rullende torden og lyn slår ned
4.2 Kontroll av akustisk miljø:
- En mann snakker i et stort rom / En mann snakker i et lite rom / En mann snakker i et studio
4.3 Materialkontroll:
- Hakke tomater på et trebord / Hakke kjøtt på et trebord / Hakke poteter på et metallbord
4.4 Tonehøydekontroll:
- Sinusbølge med lav stigning / Sinusbølge med middels stigning / Sinusbølge med høy stigning
4.5 Tidsmessig ordrekontroll:
- En racerbil går forbi og forsvinner / To skudd etterfulgt av fugler som flyr bort mens de kvitrer / Trebords bankelyd etterfulgt av vann som strømmer lyd
4.6 Label-til-lyd-generering:
- Sirene / Thunder / Oink
- Eksplosjon / Applaus / prut
- Motorsag / Fyrverkeri / Kylling, hane
- Ubetinget generasjon: "Null"
5 TTA-generering med ChatGPT-tekstmelding
- Fugler som synger søtt i en blomstrende hage
- En kattunge som mekker etter oppmerksomhet
- Magiske fe-latter gjenlyder gjennom en fortryllet skog
- Myk hvisking av en godnatthistorie som blir fortalt
- En ape ler før han blir truffet i hodet av en stor atombombe
- En blyant som skribler på en notisblokk
- Vannsprut i en dam
- Mynter klirrer i en sparegris
- Et barn plystrer i et studio
- En fjern kirkeklokke som ringer middag
- Et bilhorn som tuter i trafikken
- Sinte barn som knuser glass i frustrasjon
- En gammeldags skrivemaskin som klapper
- En jente som skriker ved det mest demente og sjofele synet
- En togfløyte blåser i det fjerne
6 Sammenligning av flere hendelser
Tekstbeskrivelser vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- En bjelle som ringer mens en klokke tikker og en mann snakker gjennom en TV-høyttaler i bakgrunnen etterfulgt av en dempet bjelle som ringer
- Summing og summing av en motor med en mann som snakker
- En serie med maskingevær og to skudd som skytes mens et jetfly flyr forbi etterfulgt av myk musikk
- Kvinne snakker, jente snakker, klapping, kvekende støy avbryter, etterfulgt av latter
- En mann som snakker mens papiret krøller, etterfulgt av knirking av plast og deretter et toalett som spyler
- Regnet faller mens folk snakker og ler i bakgrunnen
- Folk går tungt, pauser, skyver føttene, går, stopper og begynner å gå igjen
7 Kryss oppmerksomhet kart sammenligning
Sammenligninger inkluderer:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.
8 Tekstveiledet lydstiloverføring
Eksempler:
- Fra katteskriking til billøp.
- Fra fuglekvitter til ambulansesirene.
- Fra babygråt til katt som mjauer.
Andre kommentarer
- Vi vil dele koden vår på GitHub for å åpne kildekode for opplæring og evaluering av lydgenereringsmodellen for enklere sammenligning.
- Vi bekrefter de datarelaterte opphavsrettsproblemene, hvoretter de forhåndstrente modellene vil bli utgitt.
Fremtidige forbedringer
- Publiser demonettstedet og arXiv-lenken.
- Publiser Auffusion og Auffusion-Full sjekkpunkter.
- Legg til tekstveiledet stiloverføring.
- Legg til lyd-til-lyd-generering.
- Legg til lydmaleri.
- Legg til oppmerksomhetsbasert ordbytte og revektkontroll (prompt2prompt-basert).
- Legg til superoppløsning for lyd.
- Bygg en Gradio-nettapplikasjon som integrerer lyd-til-lyd, maling, stiloverføring og superoppløsning.
- Legg til dataforbehandling og opplæringskode.
Bekreftelse
Denne nettsiden er laget basert på arbeidet på AudioLDM GitHub.
FAQ
- Hva er Auffusion?
Auffusion er en toppmoderne tekst-til-lyd-generasjonsmodell som utnytter diffusjonsmodeller og store språkmodeller for å lage høykvalitetslyd fra tekstmeldinger. - Hvordan fungerer tekst-til-lyd-generering?
Systemet forvandler tekstbeskrivelser til lyd ved å kartlegge tekstinnbygginger til lydfunksjonsrom ved å bruke en latent diffusjonsmodell, noe som sikrer høy troverdighet og presis justering. - Hva er kjernetrekkene til Auffusion?
Auffusion støtter tekst-til-lyd-generering, lyd-til-lyd-transformasjon, lydinnredning og tekstveiledet lydstiloverføring. - Hvilken rolle spiller diffusjon i denne modellen?
Diffusjonsmodeller hjelper til med å gradvis transformere tilfeldig støy til koherente lydsignaler ved å følge den omvendte diffusjonsprosessen guidet av tekstinndata. - Er modellen åpen kildekode?
Ja, kode- og modellsjekkpunktene er ment å være åpen kildekode, slik at forskningsmiljøet kan få tilgang til og bygge videre på prosjektet. - Hvilken maskinvare kreves for å kjøre Auffusion?
Modellen har blitt trent på en enkelt A6000 GPU; ytelsen kan imidlertid variere avhengig av maskinvaren og spesifikke oppsett. - Hvordan kan jeg prøve å generere lyd med Auffusion?
Du kan kjøre den medfølgende slutningskoden eller bruke Colab-notatbøkene til å generere lydprøver fra dine egne tekstmeldinger. - Hva er Audio InPainting?
Audio InPainting er prosessen med å fylle ut manglende deler av et lydklipp, for å sikre sømløse overganger og opprettholde den generelle lydintegriteten. - Kan jeg bruke modellen til kommersielle formål?
Bruksrettigheter avhenger av modellens lisens; vennligst se gjennom depotlisensen og den medfølgende dokumentasjonen for retningslinjer for kommersiell bruk. - Hvordan kan jeg bidra til Auffusion-prosjektet?
Du kan bidra ved å rapportere problemer, foreslå forbedringer eller sende inn pull-forespørsler via prosjektets GitHub-depot.