Två skott följt av fågelkvitter

En hund skäller

Människor som hejar på en arena medan rullande åska och blixtnedslag

Utforska det senaste Text-till-ljudljud till ljud, och Audio InPainting tekniker som drivs av diffusion och stora språkmodeller.

1 Navigering

2 Pappersöversikt

Auffusion: Utnyttja kraften i diffusion och stora språkmodeller för text-till-ljudgenerering

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Beijing University of Post and Telecommunications, Beijing, Kina

Papper om ArXiv | Kod på GitHub | Kramar ansikte

2.1 Sammanfattning

De senaste framstegen inom diffusionsmodeller och stora språkmodeller (LLM) har avsevärt drivit fram AIGC:s område. Text-till-ljud (TTA), en växande AIGC-applikation designad för att generera ljud från naturliga språkuppmaningar, väcker ökad uppmärksamhet. Men befintliga TTA-studier kämpar ofta med genereringskvalitet och text-ljudjustering, särskilt för komplexa textinmatningar. Med inspiration från toppmoderna text-till-bild-diffusionsmodeller (T2I) introducerar vi Auffusion – ett TTA-system som anpassar T2I-modellramverk för ljudgenerering genom att utnyttja inneboende generativa styrkor och exakt tvärmodal anpassning. Objektiva och subjektiva utvärderingar visar att Auffusion överträffar tidigare TTA-metoder, även när man använder begränsade data och beräkningsresurser. Omfattande ablationsstudier och innovativa kartvisualiseringar med korsuppmärksamhet visar ytterligare upp dess överlägsna text-ljudjustering, vilket gynnar relaterade uppgifter som överföring av ljudstil, målning och andra manipulationer.

2.2 Obs

  • Auffusion genererar textvillkorade ljudeffekter, mänskligt tal och musik.
  • Den latenta diffusionsmodellen (LDM) tränas på en enda A6000 GPU, baserad på stabil diffusion med hjälp av kors uppmärksamhet.
  • Dess starka text-ljudjustering möjliggör textstyrd överföring av ljudstil, målning och uppmärksamhetsbaserad omviktning/ersättningsmanipulationer.

2.3 Figur 1: Översikt över Auffusionsarkitektur

Tränings- och slutledningsprocessen involverar transformationer fram och tillbaka mellan fyra funktionsutrymmen: ljud, spektrogram, pixel och latent utrymme. Observera att U-Net initieras med en förtränad text-till-bild LDM.

3 Innehållsförteckning

4 Text-till-ljudgenerering

4.1 Korta exempel:

  • Två skott följt av fåglar som kvittrar / En hund skäller / Människor som jublar på en stadion medan rullande åska och blixtar slår ner

4.2 Akustisk miljökontroll:

  • En man talar i ett stort rum / En man talar i ett litet rum / En man talar i en studio

4.3 Materialkontroll:

  • Hacka tomater på ett träbord / Hacka kött på ett träbord / Hacka potatis på ett metallbord

4.4 Pitch Control:

  • Sinusvåg med låg stigning / Sinusvåg med medelhög stigning / Sinusvåg med hög stigning

4.5 Temporal Order Control:

  • En racerbil passerar förbi och försvinner / Två skott följt av fåglar som flyger iväg medan de kvittrar / Träbords knackande ljud följt av vatten hällande ljud

4.6 Label-to-Audio Generation:

  • Siren / Thunder / Oink
  • Explosion / Applåder / Fart
  • Motorsåg / Fyrverkerier / Kyckling, tupp
  • Ovillkorlig generation: "Null"

5 TTA Generering med ChatGPT Text Prompt

  • Fåglar som sjunger sött i en blommande trädgård
  • En kattunge som jamar efter uppmärksamhet
  • Magiska älvor skratt ekar genom en förtrollad skog
  • Ljusa viskningar av en godnattsaga som berättas
  • En apa skrattar innan den träffas i huvudet av en stor atombomb
  • En penna som klottrar på ett anteckningsblock
  • Stänk av vatten i en damm
  • Mynt som klirrar i en spargris
  • Ett barn visslar i en studio
  • En avlägsen kyrkklocka ringer middag
  • En bils tuta som tutar i trafiken
  • Arga barn som bryter glas i frustration
  • En gammaldags skrivmaskin som klackar
  • En tjej som skriker vid den mest dementa och vidriga synen
  • En tågvissel som blåser i fjärran

6 Jämförelse av flera händelser

Textbeskrivningar vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • En klocka som ringer när en klocka tickar och en man pratar genom en tv-högtalare i bakgrunden följt av en dämpad klocka som ringer
  • Surrande och surrande av en motor med en man som talar
  • En serie kulsprutor och två skott som avfyras när ett jetflygplan flyger förbi följt av mjuk musik
  • Kvinnan talar, flickan talar, klappar, knarrande ljud avbryter, följt av skratt
  • En man som pratar som papper skrynklar följt av plast som knarrar sedan en toalettspolning
  • Regnet faller när folk pratar och skrattar i bakgrunden
  • Människor går tungt, pausar, glider med fötterna, går, stannar och börjar gå igen

7 Jämförelse av korsuppmärksamhetskarta

Jämförelser inkluderar:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.

8 Text-guidad ljudstilsöverföring

Exempel:

  • Från kattskrik till bilracing.
  • Från fågelkvitter till ambulanssiren.
  • Från babygråt till katt som jamar.

Övriga kommentarer

  1. Vi kommer att dela vår kod på GitHub för att öppna källkod för utbildning och utvärdering av ljudgenereringsmodellen för enklare jämförelse.
  2. Vi bekräftar de datarelaterade upphovsrättsproblemen, varefter de förtränade modellerna kommer att släppas.

Framtida förbättringar

  • Publicera demowebbplats och arXiv-länk.
  • Publicera Auffusion och Auffusion-Full kontrollpunkter.
  • Lägg till textstyrd stilöverföring.
  • Lägg till ljud-till-ljudgenerering.
  • Lägg till ljudmålning.
  • Lägg till uppmärksamhetsbaserat ordbyte och återviktskontroll (prompt2prompt-baserat).
  • Lägg till superupplösning för ljud.
  • Bygg en Gradio-webbapplikation som integrerar ljud-till-ljud, målning, stilöverföring och superupplösning.
  • Lägg till dataförbehandling och träningskod.

Bekräftelse

Denna webbplats är skapad utifrån arbetet på AudioLDM GitHub.

FAQ

  1. Vad är Auffusion?
    Auffusion är en toppmodern text-till-ljud-genereringsmodell som utnyttjar diffusionsmodeller och stora språkmodeller för att skapa högkvalitativt ljud från textuppmaningar.
  2. Hur fungerar text-till-ljudgenerering?
    Systemet omvandlar textbeskrivningar till ljud genom att kartlägga textinbäddningar till ljudfunktionsutrymmen med hjälp av en latent diffusionsmodell, vilket säkerställer hög trohet och exakt justering.
  3. Vilka är kärnfunktionerna i Auffusion?
    Auffusion stöder text-till-ljud-generering, ljud-till-ljud-transformation, ljudmålning och textstyrd överföring av ljudstil.
  4. Vilken roll spelar diffusion i denna modell?
    Diffusionsmodeller hjälper till att gradvis omvandla slumpmässigt brus till koherenta ljudsignaler genom att följa den omvända diffusionsprocessen som styrs av textinmatningar.
  5. Är modellen öppen källkod?
    Ja, kontrollpunkterna för kod och modell är avsedda att vara öppen källkod, så att forskarsamhället kan komma åt och bygga vidare på projektet.
  6. Vilken hårdvara krävs för att köra Auffusion?
    Modellen har tränats på en enda A6000 GPU; prestandan kan dock variera beroende på din hårdvara och specifika inställningar.
  7. Hur kan jag försöka generera ljud med Auffusion?
    Du kan köra den medföljande slutledningskoden eller använda Colab-anteckningsböckerna för att generera ljudprover från dina egna textmeddelanden.
  8. Vad är Audio InPainting?
    Audio InPainting är processen att fylla i saknade delar av ett ljudklipp, säkerställa sömlösa övergångar och bibehålla den övergripande ljudintegriteten.
  9. Kan jag använda modellen för kommersiella ändamål?
    Användningsrättigheterna beror på modellens licens; vänligen granska förvarslicensen och medföljande dokumentation för riktlinjer för kommersiell användning.
  10. Hur kan jag bidra till Auffusion-projektet?
    Du kan bidra genom att rapportera problem, föreslå förbättringar eller skicka in pull-förfrågningar via projektets GitHub-förråd.