Deux coups de feu suivis de chants d'oiseaux
Un chien aboie
Des gens applaudissent dans un stade tandis que le tonnerre gronde et que la foudre frappe
Découvrez l'état de l'art Texte en audio, audio vers audioet Audio InPainting techniques basées sur la diffusion et les grands modèles de langage.
1 Navigation
- Auffusion : exploiter la puissance de la diffusion et des grands modèles linguistiques pour la génération de texte en audio
- Auffusion : exploiter la puissance de la diffusion et des grands modèles linguistiques pour la génération de texte en audio
2 Présentation du document
Auffusion : exploiter la puissance de la diffusion et des grands modèles linguistiques pour la génération de texte en audio
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Université des Postes et Télécommunications de Pékin, Pékin, Chine
Article sur ArXiv | Code sur GitHub | Visage qui fait un câlin
2.1 Résumé
Les avancées récentes dans les modèles de diffusion et les grands modèles de langage (LLM) ont considérablement propulsé le domaine de l’AIGC. Texte en audio (TTA), une application AIGC en plein essor conçue pour générer de l'audio à partir d'invites en langage naturel, attire de plus en plus d'attention. Cependant, les études TTA existantes ont souvent du mal à gérer la qualité de la génération et l'alignement texte-audio, en particulier pour les entrées textuelles complexes. En nous inspirant des modèles de diffusion texte-image (T2I) de pointe, nous présentons Auffusion, un système TTA qui adapte les cadres de modèles T2I pour la génération audio en exploitant les forces génératives inhérentes et l'alignement intermodal précis. Des évaluations objectives et subjectives démontrent qu'Auffusion surpasse les approches TTA précédentes, même en utilisant des données et des ressources informatiques limitées. Des études d'ablation complètes et des visualisations de cartes d'attention croisée innovantes mettent en évidence son alignement texte-audio supérieur, bénéficiant à des tâches connexes telles que le transfert de style audio, l'inpainting et d'autres manipulations.
2.2 Remarque
- Auffusion génère des effets sonores conditionnels au texte, de la parole humaine et de la musique.
- Le modèle de diffusion latente (LDM) est formé sur un seul GPU A6000, basé sur la diffusion stable utilisant l'attention croisée.
- Son puissant alignement texte-audio permet le transfert de style audio guidé par texte, la retouche et les manipulations de pondération/remplacement basées sur l'attention.
2.3 Figure 1 : Présentation de l'architecture d'Auffusion
Le processus de formation et d'inférence implique des transformations aller-retour entre quatre espaces de caractéristiques : audio, spectrogramme, pixel et espace latent. Notez que le U-Net est initialisé avec un LDM texte-image pré-entraîné.
3 Table des matières
- Génération de texte en audio
- Génération TTA avec invite de texte ChatGPT
- Comparaison d'événements multiples
- Comparaison des cartes d'attention croisée
- Transfert de style audio guidé par texte
- Inpainting audio
- Remplacement basé sur l'attention
- Repondération basée sur l'attention
- Autres commentaires
- Améliorations futures
- FAQ
4 Génération de texte en audio
4.1 Courts échantillons :
- Deux coups de feu suivis de chants d'oiseaux / Un chien aboie / Des gens applaudissent dans un stade tandis que le tonnerre gronde et que la foudre frappe
4.2 Contrôle de l’environnement acoustique :
- Un homme parle dans une immense pièce / Un homme parle dans une petite pièce / Un homme parle dans un studio
4.3 Contrôle du matériel :
- Couper des tomates sur une table en bois / Couper de la viande sur une table en bois / Couper des pommes de terre sur une table en métal
4.4 Contrôle de la hauteur tonale :
- Onde sinusoïdale à faible tonalité / Onde sinusoïdale à tonalité moyenne / Onde sinusoïdale à tonalité élevée
4.5 Contrôle de l'ordre temporel :
- Une voiture de course passe et disparaît / Deux coups de feu suivis d'oiseaux qui s'envolent en gazouillant / Bruit de claquement d'une table en bois suivi d'un bruit d'eau qui coule
4.6 Génération d'étiquettes en audio :
- Sirène / Tonnerre / Grognon
- Explosion / Applaudissements / Pet
- Tronçonneuse / Feux d'artifice / Poulet, coq
- Génération inconditionnelle : "Nul"
Génération de 5 TTA avec invite de texte ChatGPT
- Des oiseaux chantent doucement dans un jardin fleuri
- Un chaton qui miaule pour attirer l'attention
- Le rire magique des fées résonne dans une forêt enchantée
- De doux murmures d'une histoire à raconter avant de dormir
- Un singe rit avant d'être frappé à la tête par une grosse bombe atomique
- Un crayon griffonnant sur un bloc-notes
- Le clapotis de l'eau dans un étang
- Des pièces de monnaie qui tintent dans une tirelire
- Un enfant siffle dans un studio
- Une cloche d'église lointaine sonnant midi
- Le klaxon d'une voiture qui retentit dans la circulation
- Des enfants en colère brisent du verre par frustration
- Une vieille machine à écrire qui claque
- Une fille qui hurle à la vue la plus démente et la plus vile
- Un sifflet de train retentit au loin
6 Comparaison d'événements multiples
Descriptions textuelles vs Ground-Truth vs AudioGen vs AudioLDM vs AudioLDM2 vs Tango vs Auffusion
- Une cloche sonne tandis qu'une horloge tourne et qu'un homme parle à travers un haut-parleur de télévision en arrière-plan, suivi d'une sonnerie de cloche étouffée
- Bourdonnement et ronronnement d'un moteur avec un homme qui parle
- Une série de tirs de mitrailleuses et deux coups de feu alors qu'un avion à réaction passe, suivis d'une douce musique
- Une femme parle, une fille parle, des applaudissements, un coassement interrompent le tout, suivi de rires
- Un homme parle tandis que du papier se froisse, suivi d'un craquement de plastique, puis d'une chasse d'eau
- La pluie tombe tandis que les gens parlent et rient en arrière-plan
- Les gens marchent lourdement, s'arrêtent, glissent leurs pieds, marchent, s'arrêtent et recommencent à marcher.
7 Comparaison des cartes d'attention croisée
Les comparaisons incluent :
Auffusion sans prétrain / Auffusion avec clip / Auffusion avec clap / Auffusion avec flant5 / Tango.
8 Transfert de style audio guidé par texte
Exemples :
- Des cris de chat aux courses automobiles.
- Du chant des oiseaux à la sirène d’ambulance.
- Des pleurs du bébé aux miaulements du chat.
Autres commentaires
- Nous partagerons notre code sur GitHub pour ouvrir la source de la formation et de l'évaluation du modèle de génération audio pour une comparaison plus facile.
- Nous confirmons les problèmes de droits d'auteur liés aux données, après quoi les modèles pré-entraînés seront publiés.
Améliorations futures
- Publier un site Web de démonstration et un lien arXiv.
- Publier les points de contrôle Auffusion et Auffusion-Full.
- Ajoutez un transfert de style guidé par texte.
- Ajoutez la génération audio-audio.
- Ajouter une retouche audio.
- Ajoutez un échange de mots basé sur l'attention et un contrôle de pondération (basé sur prompt2prompt).
- Ajoutez une super résolution audio.
- Créez une application Web Gradio intégrant l'audio vers l'audio, l'inpainting, le transfert de style et la super-résolution.
- Ajoutez un code de prétraitement et de formation des données.
Reconnaissance
Ce site Web est créé sur la base du travail de GitHub AudioLDM.
FAQ
- Qu'est-ce que l'Auffusion ?
Auffusion est un modèle de génération de texte en audio de pointe qui exploite les modèles de diffusion et les grands modèles linguistiques pour créer un son de haute qualité à partir d'invites textuelles. - Comment fonctionne la génération de texte en audio ?
Le système transforme les descriptions textuelles en audio en mappant les intégrations de texte dans les espaces de fonctionnalités audio à l'aide d'un modèle de diffusion latente, garantissant une haute fidélité et un alignement précis. - Quelles sont les fonctionnalités principales d’Auffusion ?
Auffusion prend en charge la génération de texte en audio, la transformation audio en audio, la retouche audio et le transfert de style audio guidé par texte. - Quel rôle joue la diffusion dans ce modèle ?
Les modèles de diffusion aident à transformer progressivement le bruit aléatoire en signaux audio cohérents en suivant le processus de diffusion inverse guidé par des entrées textuelles. - Le modèle est-il open source ?
Oui, le code et les points de contrôle du modèle sont destinés à être open source, permettant à la communauté de recherche d'accéder au projet et de s'appuyer sur celui-ci. - Quel matériel est requis pour exécuter Auffusion ?
Le modèle a été formé sur un seul GPU A6000 ; cependant, les performances peuvent varier en fonction de votre matériel et de votre configuration spécifique. - Comment puis-je essayer de générer de l'audio avec Auffusion ?
Vous pouvez exécuter le code d’inférence fourni ou utiliser les blocs-notes Colab pour générer des échantillons audio à partir de vos propres invites de texte. - Qu'est-ce que Audio InPainting ?
Audio InPainting est le processus de remplissage des parties manquantes d'un clip audio, garantissant des transitions fluides et préservant l'intégrité globale du son. - Puis-je utiliser le modèle à des fins commerciales ?
Les droits d'utilisation dépendent de la licence du modèle ; veuillez consulter la licence du référentiel et la documentation qui l'accompagne pour connaître les directives d'utilisation commerciale. - Comment puis-je contribuer au projet Auffusion ?
Vous pouvez contribuer en signalant des problèmes, en suggérant des améliorations ou en soumettant des demandes d'extraction via le référentiel GitHub du projet.