Zwei Schüsse, gefolgt von Vogelgezwitscher
Ein Hund bellt
Menschen jubeln in einem Stadion, während Donner und Blitze einschlagen
Entdecken Sie den neuesten Stand der Technik Text-zu-Audio, Audio-zu-Audiound Audio InPainting Techniken, die auf Diffusion und großen Sprachmodellen basieren.
1 Navigation
- Auffusion: Nutzung der Leistungsfähigkeit von Diffusion und großen Sprachmodellen zur Generierung von Text in Audio
- Auffusion: Nutzung der Leistungsfähigkeit von Diffusion und großen Sprachmodellen zur Generierung von Text in Audio
2 Papierübersicht
Auffusion: Nutzung der Leistungsfähigkeit von Diffusion und großen Sprachmodellen zur Generierung von Text in Audio
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universität für Post und Telekommunikation Peking, Peking, China
Beitrag auf ArXiv | Code auf GitHub | Umarmendes Gesicht
2.1 Zusammenfassung
Jüngste Fortschritte bei Diffusionsmodellen und großen Sprachmodellen (LLMs) haben den Bereich der AIGC deutlich vorangetrieben. Text-zu-Audio (TTA), eine aufstrebende AIGC-Anwendung zur Generierung von Audio aus natürlichen Sprachaufforderungen, erregt zunehmend Aufmerksamkeit. Bestehende TTA-Studien haben jedoch häufig Probleme mit der Generierungsqualität und der Text-Audio-Ausrichtung, insbesondere bei komplexen Texteingaben. Inspiriert von hochmodernen Text-to-Image (T2I)-Diffusionsmodellen stellen wir Auffusion vor – ein TTA-System, das T2I-Modellrahmen für die Audiogenerierung anpasst, indem es inhärente generative Stärken und eine präzise kreuzmodale Ausrichtung nutzt. Objektive und subjektive Bewertungen zeigen, dass Auffusion frühere TTA-Ansätze übertrifft, selbst bei Verwendung begrenzter Daten und Rechenressourcen. Umfassende Ablationsstudien und innovative Cross-Attention-Map-Visualisierungen zeigen außerdem seine überlegene Text-Audio-Ausrichtung, die verwandten Aufgaben wie Audiostilübertragung, Inpainting und anderen Manipulationen zugutekommt.
2.2 Hinweis
- Auffusion erzeugt textbedingte Soundeffekte, menschliche Sprache und Musik.
- Das latente Diffusionsmodell (LDM) wird auf einer einzelnen A6000-GPU trainiert, basierend auf stabiler Diffusion unter Verwendung von Cross-Attention.
- Seine starke Text-Audio-Ausrichtung ermöglicht eine textgesteuerte Übertragung des Audiostils, Inpainting und aufmerksamkeitsbasierte Neugewichtungs-/Ersetzungsmanipulationen.
2.3 Abbildung 1: Übersicht über die Auffusion-Architektur
Der Trainings- und Inferenzprozess umfasst Hin- und Hertransformationen zwischen vier Merkmalsräumen: Audio, Spektrogramm, Pixel und latenter Raum. Beachten Sie, dass das U-Net mit einem vortrainierten Text-zu-Bild-LDM initialisiert wird.
3 Inhaltsverzeichnis
- Text-zu-Audio-Generierung
- TTA-Generierung mit ChatGPT-Textaufforderung
- Vergleich mehrerer Ereignisse
- Cross Attention Map-Vergleich
- Textgesteuerte Übertragung des Audiostils
- Audio-Inpainting
- Aufmerksamkeitsbasierter Ersatz
- Aufmerksamkeitsbasierte Neugewichtung
- Andere Kommentare
- Zukünftige Verbesserungen
- Häufig gestellte Fragen
4 Text-zu-Audio-Generierung
4.1 Kurze Beispiele:
- Zwei Schüsse, gefolgt von Vogelgezwitscher / Ein Hund bellt / Menschen jubeln in einem Stadion, während Donner und Blitz einschlagen
4.2 Akustische Umgebungskontrolle:
- Ein Mann spricht in einem riesigen Raum / Ein Mann spricht in einem kleinen Raum / Ein Mann spricht in einem Studio
4.3 Materialkontrolle:
- Tomaten schneiden auf einem Holztisch / Fleisch schneiden auf einem Holztisch / Kartoffeln schneiden auf einem Metalltisch
4.4 Tonhöhenregelung:
- Sinuswelle mit tiefer Tonhöhe / Sinuswelle mit mittlerer Tonhöhe / Sinuswelle mit hoher Tonhöhe
4.5 Zeitliche Ordnungskontrolle:
- Ein Rennwagen fährt vorbei und verschwindet / Zwei Schüsse, gefolgt vom Zwitschern der Vögel, die davonfliegen / Das Klopfen auf einem Holztisch, gefolgt vom Geräusch strömenden Wassers
4.6 Label-to-Audio-Generierung:
- Sirene / Donner / Grunzen
- Explosion / Applaus / Furz
- Kettensäge / Feuerwerk / Huhn, Hahn
- Bedingungslose Generation: „Null“
5 TTA-Generierung mit ChatGPT-Textaufforderung
- Süße Vögel singen in einem blühenden Garten
- Ein Kätzchen miaut, um Aufmerksamkeit zu erregen
- Magisches Feenlachen hallt durch einen Zauberwald
- Leises Flüstern einer Gutenachtgeschichte
- Ein Affe lacht, bevor ihn eine große Atombombe am Kopf trifft
- Ein Bleistift kritzelt auf einem Notizblock
- Das Plätschern von Wasser in einem Teich
- Münzen klimpern in einem Sparschwein
- Ein Kind pfeift in einem Studio
- Eine entfernte Kirchenglocke schlägt Mittag
- Die Hupe eines Autos im Verkehr
- Wütende Kinder zerschlagen aus Frust Glas
- Eine altmodische Schreibmaschine klappert
- Ein Mädchen, das beim verrücktesten und abscheulichsten Anblick schreit
- In der Ferne ertönt eine Zugpfeife
6 Vergleich mehrerer Ereignisse
Textbeschreibungen vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- Eine Glocke läutet, während eine Uhr tickt und ein Mann im Hintergrund durch einen Fernsehlautsprecher spricht, gefolgt von einem gedämpften Glockenläuten
- Summen und Brummen eines Motors, während ein Mann spricht
- Eine Reihe von Maschinengewehrfeuer und zwei Schüsse, während ein Düsenflugzeug vorbeifliegt, gefolgt von leiser Musik
- Frau spricht, Mädchen spricht, Klatschen, krächzendes Geräusch unterbricht, gefolgt von Gelächter
- Ein Mann spricht, während Papier knistert, gefolgt von Plastikknarren und einer Toilettenspülung
- Regen fällt, während im Hintergrund Leute reden und lachen
- Die Leute gehen schwerfällig, halten inne, rutschen mit den Füßen, gehen, bleiben stehen und beginnen wieder zu gehen
7 Cross Attention Map Vergleich
Vergleiche umfassen:
Auffusion ohne Vortraining / Auffusion mit Clip / Auffusion mit Klatschen / Auffusion mit Flant5 / Tango.
8 Textgeführte Audiostilübertragung
Beispiele:
- Von Katzengeschrei bis Autorennen.
- Vom Vogelgezwitscher bis zur Krankenwagensirene.
- Vom Babygeschrei bis zum Katzenmiauen.
Andere Kommentare
- Wir werden unseren Code auf GitHub freigeben, um das Training und die Auswertung des Audiogenerierungsmodells als Open Source verfügbar zu machen und so den Vergleich zu erleichtern.
- Wir bestätigen die datenbezogenen Urheberrechtsprobleme. Danach werden die vortrainierten Modelle veröffentlicht.
Zukünftige Verbesserungen
- Demo-Website und ArXiv-Link veröffentlichen.
- Veröffentlichen Sie Auffusion- und Auffusion-Full-Checkpoints.
- Textgesteuerte Stilübertragung hinzufügen.
- Audio-zu-Audio-Generierung hinzufügen.
- Audio-Inpainting hinzufügen.
- Fügen Sie eine aufmerksamkeitsbasierte Worttausch- und Neugewichtungssteuerung hinzu (basierend auf Prompt2Prompt).
- Audio in Superauflösung hinzufügen.
- Erstellen Sie eine Gradio-Webanwendung, die Audio-zu-Audio, Inpainting, Stilübertragung und Superauflösung integriert.
- Fügen Sie Datenvorverarbeitungs- und Trainingscode hinzu.
Anerkennung
Diese Website basiert auf der Arbeit von AudioLDM GitHub.
Häufig gestellte Fragen
- Was ist Auffusion?
Auffusion ist ein hochmodernes Modell zur Text-zu-Audio-Generierung, das Diffusionsmodelle und große Sprachmodelle nutzt, um aus Textaufforderungen qualitativ hochwertige Audiodaten zu erstellen. - Wie funktioniert die Text-zu-Audio-Generierung?
Das System wandelt Textbeschreibungen in Audio um, indem es Texteinbettungen mithilfe eines latenten Diffusionsmodells in Audio-Merkmalsräume abbildet und so eine hohe Wiedergabetreue und präzise Ausrichtung gewährleistet. - Was sind die Hauptfunktionen von Auffusion?
Auffusion unterstützt die Text-zu-Audio-Generierung, Audio-zu-Audio-Transformation, Audio-Inpainting und die textgesteuerte Übertragung von Audiostilen. - Welche Rolle spielt Diffusion in diesem Modell?
Diffusionsmodelle helfen bei der schrittweisen Umwandlung von zufälligem Rauschen in kohärente Audiosignale, indem sie dem durch Texteingaben gesteuerten umgekehrten Diffusionsprozess folgen. - Ist das Modell Open Source?
Ja, der Code und die Modellprüfpunkte sollen Open Source sein, sodass die Forschungsgemeinschaft auf das Projekt zugreifen und darauf aufbauen kann. - Welche Hardware wird zum Ausführen von Auffusion benötigt?
Das Modell wurde auf einer einzelnen A6000-GPU trainiert. Die Leistung kann jedoch je nach Hardware und spezifischer Konfiguration variieren. - Wie kann ich versuchen, mit Auffusion Audio zu generieren?
Sie können den bereitgestellten Inferenzcode ausführen oder die Colab-Notizbücher verwenden, um Audiobeispiele aus Ihren eigenen Textaufforderungen zu generieren. - Was ist Audio InPainting?
Beim Audio InPainting werden fehlende Teile eines Audioclips ergänzt, wodurch nahtlose Übergänge sichergestellt und die allgemeine Klangintegrität gewahrt wird. - Kann ich das Modell für kommerzielle Zwecke nutzen?
Die Nutzungsrechte hängen von der Lizenz des Modells ab. Bitte lesen Sie die Repository-Lizenz und die zugehörige Dokumentation für Richtlinien zur kommerziellen Nutzung. - Wie kann ich zum Auffusion-Projekt beitragen?
Sie können beitragen, indem Sie Probleme melden, Verbesserungen vorschlagen oder Pull Requests über das GitHub-Repository des Projekts übermitteln.