Două împușcături urmate de ciripitul păsărilor
Un câine latră
Oameni care aplaudă pe un stadion în timp ce tunet și fulgere lovesc
Explorați ultimă generație Text-to-Audio, audio-la-audio, și Audio InPainting tehnici alimentate de difuzie și modele de limbaj mari.
1 Navigare
- Auffusion: valorificarea puterii difuziei și a modelelor de limbaj mari pentru generarea text-to-audio
- Auffusion: valorificarea puterii difuziei și a modelelor de limbaj mari pentru generarea text-to-audio
2 Prezentare generală a hârtiei
Auffusion: valorificarea puterii difuziei și a modelelor de limbaj mari pentru generarea text-to-audio
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universitatea de Poște și Telecomunicații din Beijing, Beijing, China
Lucrare despre ArXiv | Cod pe GitHub | Față îmbrățișată
2.1 Rezumat
Progresele recente în modelele de difuzie și modelele de limbaj mari (LLM) au propulsat în mod semnificativ domeniul AIGC. Text-to-Audio (TTA), o aplicație AIGC în plină dezvoltare, concepută pentru a genera sunet din mesaje în limbaj natural, atrage atenția din ce în ce mai mult. Cu toate acestea, studiile TTA existente se luptă adesea cu calitatea generației și alinierea text-audio, în special pentru intrări textuale complexe. Inspirându-ne din modelele de difuzare Text-to-Image (T2I) de ultimă generație, introducem Auffusion—un sistem TTA care adaptează cadrele modelului T2I pentru generarea audio, valorificând puterile generative inerente și alinierea trans-modală precisă. Evaluările obiective și subiective demonstrează că Auffusion depășește abordările anterioare TTA, chiar și atunci când se utilizează date limitate și resurse de calcul. Studiile cuprinzătoare de ablație și vizualizările inovatoare ale hărților cu atenție încrucișată arată și mai mult alinierea sa superioară text-audio, beneficiind de sarcini conexe, cum ar fi transferul stilului audio, pictura și alte manipulări.
2.2 Notă
- Auffusion generează efecte sonore condiționate de text, vorbire umană și muzică.
- Modelul de difuzie latentă (LDM) este antrenat pe un singur GPU A6000, bazat pe Stable Diffusion folosind atenție încrucișată.
- Alinierea sa puternică text-audio permite transferul stilului audio ghidat de text, pictarea și manipulările de reponderare/înlocuire bazate pe atenție.
2.3 Figura 1: Privire de ansamblu asupra arhitecturii Auffusion
Procesul de instruire și inferență implică transformări dus-întors între patru spații caracteristice: audio, spectrogramă, pixel și spațiu latent. Rețineți că U-Net este inițializat cu un LDM text-to-image preantrenat.
3 Cuprins
- Generare text-to-audio
- Generare TTA cu mesaj text ChatGPT
- Comparație cu mai multe evenimente
- Comparația hărților de atenție încrucișată
- Transfer de stil audio ghidat de text
- Audio Inpainting
- Înlocuire bazată pe atenție
- Reponderare bazată pe atenție
- Alte comentarii
- Îmbunătățiri viitoare
- FAQ
4 Generare text-to-audio
4.1 Eșantioane scurte:
- Două împușcături urmate de ciripit de păsări / Un câine latră / Oameni care aplaudă pe un stadion în timp ce tunet și fulgere lovesc
4.2 Controlul mediului acustic:
- Un bărbat vorbește într-o cameră imensă / Un bărbat vorbește într-o cameră mică / Un bărbat vorbește într-o garsonieră
4.3 Controlul materialelor:
- Tocare roșii pe o masă de lemn / Tocare carne pe o masă de lemn / Tocare cartofi pe o masă metalică
4.4 Controlul înclinării:
- Undă sinusoidală cu înălțime scăzută / Undă sinusoidală cu înălțime medie / Undă sinusoidală cu înălțime înaltă
4.5 Controlul temporar al comenzii:
- Trece o mașină de curse și dispare / Două împușcături urmate de păsări care zboară în timp ce ciripesc / Sunet de bătăi de masă de lemn, urmat de sunet de turnare de apă
4.6 Generarea etichetei la audio:
- Sirenă / Tunete / Oink
- Explozie / Aplauze / Fart
- Fierăstrău / Artificii / Pui, cocoș
- Generație necondiționată: "Nul"
5 Generare TTA cu mesaj text ChatGPT
- Păsări cântând dulce într-o grădină înflorită
- Un pisoi miaunand pentru atentie
- Râsetele zânelor magice răsunând printr-o pădure fermecată
- Șoapte blânde ale unei povești de culcare spuse
- O maimuță râde înainte de a fi lovită în cap de o bombă atomică mare
- Un creion mâzgălit pe un blocnotes
- Stropirea cu apă într-un iaz
- Monede clincănind într-o pușculiță
- Un copil fluieră într-o garsonieră
- Un clopot îndepărtat de biserică sună la amiază
- Claxonul unei mașini sună în trafic
- Copii supărați care sparg sticlă frustrați
- O mașină de scris de modă veche clacă
- O fată care țipă la cea mai dementă și ticăloasă vedere
- Un fluier de tren sufla în depărtare
6 Comparație cu mai multe evenimente
Descrieri text vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- Un clopoțel sună în timp ce un ceas ticăie și un bărbat vorbește printr-un difuzor al televizorului în fundal, urmat de un sonerie înfundat
- Bâzâit și zumzet al unui motor cu un bărbat care vorbește
- O serie de focuri de mitralieră și două focuri de armă în timp ce un avion cu reacție zboară, urmate de muzică slabă
- Femeia vorbește, fata vorbește, bătând din palme, zgomotul crocâit întrerupe, urmat de râs
- Un bărbat care vorbește în timp ce hârtia se încrețește, urmată de scârțâituri de plastic și apoi de spălarea toaletei
- Ploaia cade în timp ce oamenii vorbesc și râd în fundal
- Oamenii merg greu, se opresc, alunecă cu picioarele, merg, se opresc și încep să meargă din nou
7 Compararea hărților de atenție încrucișată
Comparațiile includ:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.
8 Transfer de stil audio ghidat de text
Exemple:
- De la țipete de pisică la curse de mașini.
- De la ciripitul păsărilor la sirena de ambulanță.
- De la plânsul bebelușului până la mieunatul de pisică.
Alte comentarii
- Vom partaja codul nostru pe GitHub pentru a deschide sursa de instruire și evaluare a modelului de generare audio pentru o comparație mai ușoară.
- Confirmăm problemele legate de drepturile de autor legate de date, după care vor fi lansate modelele pregătite.
Îmbunătățiri viitoare
- Publicați site-ul demonstrativ și linkul arXiv.
- Publicați punctele de control Auffusion și Auffusion-Full.
- Adăugați transfer de stil ghidat de text.
- Adăugați generarea audio-la-audio.
- Adăugați pictura audio.
- Adăugați controlul de schimbare a cuvintelor bazat pe atenție și reponderare (bazat pe prompt2prompt).
- Adăugați super-rezoluție audio.
- Construiți o aplicație web Gradio care integrează audio-la-audio, inpainting, transfer de stil și super-rezoluție.
- Adăugați codul de preprocesare și instruire a datelor.
Confirmare
Acest site web este creat pe baza lucrării de la AudioLDM GitHub.
FAQ
- Ce este Auffusion?
Auffusion este un model de ultimă generație de generare text-to-audio care folosește modele de difuzare și modele mari de limbaj pentru a crea sunet de înaltă calitate din instrucțiuni textuale. - Cum funcționează generarea text-to-audio?
Sistemul transformă descrierile textuale în audio prin maparea înglobărilor de text în spații de caracteristici audio folosind un model de difuzie latentă, asigurând o fidelitate ridicată și o aliniere precisă. - Care sunt caracteristicile de bază ale Auffusion?
Auffusion acceptă generarea text-to-audio, transformarea audio-în-audio, pictura audio și transferul stilului audio ghidat de text. - Ce rol joacă difuziunea în acest model?
Modelele de difuzie ajută la transformarea treptată a zgomotului aleatoriu în semnale audio coerente, urmând procesul de difuzie inversă ghidat de intrări textuale. - Modelul este open-source?
Da, punctele de control ale codului și modelului sunt destinate să fie open source, permițând comunității de cercetare să acceseze și să se bazeze pe proiect. - Ce hardware este necesar pentru a rula Auffusion?
Modelul a fost antrenat pe un singur GPU A6000; cu toate acestea, performanța poate varia în funcție de hardware-ul dvs. și de configurația specifică. - Cum pot încerca să generez audio cu Auffusion?
Puteți rula codul de inferență furnizat sau puteți utiliza caietele Colab pentru a genera mostre audio din propriile mesaje text. - Ce este Audio InPainting?
Audio InPainting este procesul de completare a părților lipsă dintr-un clip audio, asigurând tranziții fără întreruperi și menținând integritatea generală a sunetului. - Pot folosi modelul în scopuri comerciale?
Drepturile de utilizare depind de licența modelului; vă rugăm să consultați licența de depozit și documentația însoțitoare pentru ghidurile de utilizare comercială. - Cum pot contribui la proiectul Auffusion?
Puteți contribui raportând probleme, sugerând îmbunătățiri sau trimițând cereri de extragere prin intermediul depozitului GitHub al proiectului.