Två skott följt av fågelkvitter
En hund skäller
Människor som hejar på en arena medan rullande åska och blixtnedslag
Utforska det senaste Text-till-ljud, ljud till ljud, och Audio InPainting tekniker som drivs av diffusion och stora språkmodeller.
1 Navigering
- Auffusion: Utnyttja kraften i diffusion och stora språkmodeller för text-till-ljudgenerering
- Auffusion: Utnyttja kraften i diffusion och stora språkmodeller för text-till-ljudgenerering
2 Pappersöversikt
Auffusion: Utnyttja kraften i diffusion och stora språkmodeller för text-till-ljudgenerering
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Beijing University of Post and Telecommunications, Beijing, Kina
Papper om ArXiv | Kod på GitHub | Kramar ansikte
2.1 Sammanfattning
De senaste framstegen inom diffusionsmodeller och stora språkmodeller (LLM) har avsevärt drivit fram AIGC:s område. Text-till-ljud (TTA), en växande AIGC-applikation designad för att generera ljud från naturliga språkuppmaningar, väcker ökad uppmärksamhet. Men befintliga TTA-studier kämpar ofta med genereringskvalitet och text-ljudjustering, särskilt för komplexa textinmatningar. Med inspiration från toppmoderna text-till-bild-diffusionsmodeller (T2I) introducerar vi Auffusion – ett TTA-system som anpassar T2I-modellramverk för ljudgenerering genom att utnyttja inneboende generativa styrkor och exakt tvärmodal anpassning. Objektiva och subjektiva utvärderingar visar att Auffusion överträffar tidigare TTA-metoder, även när man använder begränsade data och beräkningsresurser. Omfattande ablationsstudier och innovativa kartvisualiseringar med korsuppmärksamhet visar ytterligare upp dess överlägsna text-ljudjustering, vilket gynnar relaterade uppgifter som överföring av ljudstil, målning och andra manipulationer.
2.2 Obs
- Auffusion genererar textvillkorade ljudeffekter, mänskligt tal och musik.
- Den latenta diffusionsmodellen (LDM) tränas på en enda A6000 GPU, baserad på stabil diffusion med hjälp av kors uppmärksamhet.
- Dess starka text-ljudjustering möjliggör textstyrd överföring av ljudstil, målning och uppmärksamhetsbaserad omviktning/ersättningsmanipulationer.
2.3 Figur 1: Översikt över Auffusionsarkitektur
Tränings- och slutledningsprocessen involverar transformationer fram och tillbaka mellan fyra funktionsutrymmen: ljud, spektrogram, pixel och latent utrymme. Observera att U-Net initieras med en förtränad text-till-bild LDM.
3 Innehållsförteckning
- Text-till-ljudgenerering
- TTA Generering med ChatGPT Text Prompt
- Jämförelse av flera händelser
- Jämförelse av korsuppmärksamhetskarta
- Text-guidad ljudstilsöverföring
- Ljudmålning
- Uppmärksamhetsbaserad ersättning
- Uppmärksamhetsbaserad omviktning
- Övriga kommentarer
- Framtida förbättringar
- FAQ
4 Text-till-ljudgenerering
4.1 Korta exempel:
- Två skott följt av fåglar som kvittrar / En hund skäller / Människor som jublar på en stadion medan rullande åska och blixtar slår ner
4.2 Akustisk miljökontroll:
- En man talar i ett stort rum / En man talar i ett litet rum / En man talar i en studio
4.3 Materialkontroll:
- Hacka tomater på ett träbord / Hacka kött på ett träbord / Hacka potatis på ett metallbord
4.4 Pitch Control:
- Sinusvåg med låg stigning / Sinusvåg med medelhög stigning / Sinusvåg med hög stigning
4.5 Temporal Order Control:
- En racerbil passerar förbi och försvinner / Två skott följt av fåglar som flyger iväg medan de kvittrar / Träbords knackande ljud följt av vatten hällande ljud
4.6 Label-to-Audio Generation:
- Siren / Thunder / Oink
- Explosion / Applåder / Fart
- Motorsåg / Fyrverkerier / Kyckling, tupp
- Ovillkorlig generation: "Null"
5 TTA Generering med ChatGPT Text Prompt
- Fåglar som sjunger sött i en blommande trädgård
- En kattunge som jamar efter uppmärksamhet
- Magiska älvor skratt ekar genom en förtrollad skog
- Ljusa viskningar av en godnattsaga som berättas
- En apa skrattar innan den träffas i huvudet av en stor atombomb
- En penna som klottrar på ett anteckningsblock
- Stänk av vatten i en damm
- Mynt som klirrar i en spargris
- Ett barn visslar i en studio
- En avlägsen kyrkklocka ringer middag
- En bils tuta som tutar i trafiken
- Arga barn som bryter glas i frustration
- En gammaldags skrivmaskin som klackar
- En tjej som skriker vid den mest dementa och vidriga synen
- En tågvissel som blåser i fjärran
6 Jämförelse av flera händelser
Textbeskrivningar vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- En klocka som ringer när en klocka tickar och en man pratar genom en tv-högtalare i bakgrunden följt av en dämpad klocka som ringer
- Surrande och surrande av en motor med en man som talar
- En serie kulsprutor och två skott som avfyras när ett jetflygplan flyger förbi följt av mjuk musik
- Kvinnan talar, flickan talar, klappar, knarrande ljud avbryter, följt av skratt
- En man som pratar som papper skrynklar följt av plast som knarrar sedan en toalettspolning
- Regnet faller när folk pratar och skrattar i bakgrunden
- Människor går tungt, pausar, glider med fötterna, går, stannar och börjar gå igen
7 Jämförelse av korsuppmärksamhetskarta
Jämförelser inkluderar:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.
8 Text-guidad ljudstilsöverföring
Exempel:
- Från kattskrik till bilracing.
- Från fågelkvitter till ambulanssiren.
- Från babygråt till katt som jamar.
Övriga kommentarer
- Vi kommer att dela vår kod på GitHub för att öppna källkod för utbildning och utvärdering av ljudgenereringsmodellen för enklare jämförelse.
- Vi bekräftar de datarelaterade upphovsrättsproblemen, varefter de förtränade modellerna kommer att släppas.
Framtida förbättringar
- Publicera demowebbplats och arXiv-länk.
- Publicera Auffusion och Auffusion-Full kontrollpunkter.
- Lägg till textstyrd stilöverföring.
- Lägg till ljud-till-ljudgenerering.
- Lägg till ljudmålning.
- Lägg till uppmärksamhetsbaserat ordbyte och återviktskontroll (prompt2prompt-baserat).
- Lägg till superupplösning för ljud.
- Bygg en Gradio-webbapplikation som integrerar ljud-till-ljud, målning, stilöverföring och superupplösning.
- Lägg till dataförbehandling och träningskod.
Bekräftelse
Denna webbplats är skapad utifrån arbetet på AudioLDM GitHub.
FAQ
- Vad är Auffusion?
Auffusion är en toppmodern text-till-ljud-genereringsmodell som utnyttjar diffusionsmodeller och stora språkmodeller för att skapa högkvalitativt ljud från textuppmaningar. - Hur fungerar text-till-ljudgenerering?
Systemet omvandlar textbeskrivningar till ljud genom att kartlägga textinbäddningar till ljudfunktionsutrymmen med hjälp av en latent diffusionsmodell, vilket säkerställer hög trohet och exakt justering. - Vilka är kärnfunktionerna i Auffusion?
Auffusion stöder text-till-ljud-generering, ljud-till-ljud-transformation, ljudmålning och textstyrd överföring av ljudstil. - Vilken roll spelar diffusion i denna modell?
Diffusionsmodeller hjälper till att gradvis omvandla slumpmässigt brus till koherenta ljudsignaler genom att följa den omvända diffusionsprocessen som styrs av textinmatningar. - Är modellen öppen källkod?
Ja, kontrollpunkterna för kod och modell är avsedda att vara öppen källkod, så att forskarsamhället kan komma åt och bygga vidare på projektet. - Vilken hårdvara krävs för att köra Auffusion?
Modellen har tränats på en enda A6000 GPU; prestandan kan dock variera beroende på din hårdvara och specifika inställningar. - Hur kan jag försöka generera ljud med Auffusion?
Du kan köra den medföljande slutledningskoden eller använda Colab-anteckningsböckerna för att generera ljudprover från dina egna textmeddelanden. - Vad är Audio InPainting?
Audio InPainting är processen att fylla i saknade delar av ett ljudklipp, säkerställa sömlösa övergångar och bibehålla den övergripande ljudintegriteten. - Kan jag använda modellen för kommersiella ändamål?
Användningsrättigheterna beror på modellens licens; vänligen granska förvarslicensen och medföljande dokumentation för riktlinjer för kommersiell användning. - Hur kan jag bidra till Auffusion-projektet?
Du kan bidra genom att rapportera problem, föreslå förbättringar eller skicka in pull-förfrågningar via projektets GitHub-förråd.