Dos disparos seguidos del canto de los pájaros
Un perro está ladrando
Gente animando en un estadio mientras caen truenos y relámpagos
Explora lo último en tecnología Texto a audio, audio a audio, y Audio en pintura Técnicas impulsadas por la difusión y grandes modelos de lenguaje.
1 Navegación
- Auffusion: Aprovechar el poder de la difusión y los grandes modelos lingüísticos para la generación de texto a audio
- Auffusion: Aprovechar el poder de la difusión y los grandes modelos lingüísticos para la generación de texto a audio
2 Descripción general del documento
Auffusion: Aprovechar el poder de la difusión y los grandes modelos lingüísticos para la generación de texto a audio
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universidad de Correos y Telecomunicaciones de Beijing, Beijing, China
Artículo publicado en ArXiv | Código en GitHub | Cara abrazada
2.1 Resumen
Los avances recientes en modelos de difusión y modelos de lenguaje grande (LLM) han impulsado significativamente el campo de AIGC. Texto a audio (TTA), una aplicación AIGC en expansión diseñada para generar audio a partir de indicaciones en lenguaje natural, está atrayendo cada vez más atención. Sin embargo, los estudios de TTA existentes a menudo tienen problemas con la calidad de generación y la alineación de texto-audio, especialmente para entradas textuales complejas. Inspirándonos en los modelos de difusión de texto a imagen (T2I) de última generación, presentamos Auffusion, un sistema TTA que adapta los marcos de modelos T2I para la generación de audio aprovechando las fortalezas generativas inherentes y la alineación intermodal precisa. Las evaluaciones objetivas y subjetivas demuestran que Auffusion supera los enfoques TTA anteriores, incluso cuando se utilizan datos y recursos computacionales limitados. Los estudios de ablación integrales y las visualizaciones innovadoras de mapas de atención cruzada muestran aún más su alineación superior de texto-audio, lo que beneficia las tareas relacionadas, como la transferencia de estilo de audio, la restauración de imágenes y otras manipulaciones.
2.2 Nota
- Auffusion genera efectos de sonido condicionales de texto, voz humana y música.
- El modelo de difusión latente (LDM) se entrena en una sola GPU A6000, basado en difusión estable utilizando atención cruzada.
- Su fuerte alineación texto-audio permite la transferencia de estilo de audio guiada por texto, retoques y manipulaciones de reponderación/reemplazo basadas en la atención.
2.3 Figura 1: Descripción general de la arquitectura de Auffusion
El proceso de entrenamiento e inferencia implica transformaciones de ida y vuelta entre cuatro espacios de características: audio, espectrograma, píxel y espacio latente. Tenga en cuenta que la U-Net se inicializa con un LDM de texto a imagen previamente entrenado.
3 Índice de contenidos
- Generación de texto a audio
- Generación de TTA con mensaje de texto ChatGPT
- Comparación de múltiples eventos
- Comparación de mapas de atención cruzada
- Transferencia de estilo de audio guiada por texto
- Pintura de audio
- Reemplazo basado en la atención
- Reponderación basada en la atención
- Otros comentarios
- Mejoras futuras
- Preguntas frecuentes
4 Generación de texto a audio
4.1 Muestras breves:
- Dos disparos seguidos de pájaros cantando / Un perro ladra / Gente vitoreando en un estadio mientras caen truenos y relámpagos
4.2 Control del entorno acústico:
- Un hombre está hablando en una habitación enorme / Un hombre está hablando en una habitación pequeña / Un hombre está hablando en un estudio
4.3 Control de materiales:
- Picar tomates en una mesa de madera / Picar carne en una mesa de madera / Picar patatas en una mesa de metal
4.4 Control de tono:
- Onda sinusoidal de tono bajo / Onda sinusoidal de tono medio / Onda sinusoidal de tono alto
4.5 Control del orden temporal:
- Un coche de carreras pasa y desaparece / Dos disparos seguidos de pájaros que vuelan mientras cantan / Sonido de golpeteo de una mesa de madera seguido de sonido de agua cayendo
4.6 Generación de etiquetas a audio:
- Sirena / Trueno / Oink
- Explosión / Aplausos / Pedo
- Motosierra / Fuegos artificiales / Pollo, gallo
- Generación incondicional: "Nulo"
5 Generación de TTA con mensaje de texto ChatGPT
- Pájaros cantando dulcemente en un jardín floreciente.
- Un gatito maullando para llamar la atención
- La risa mágica de las hadas resuena en un bosque encantado
- Suaves susurros de un cuento para dormir que se cuenta
- Un mono se ríe antes de ser golpeado en la cabeza por una gran bomba atómica.
- Un lápiz garabateando en un bloc de notas
- El chapoteo del agua en un estanque
- Monedas tintineando en una alcancía
- Un niño está silbando en un estudio.
- Una campana de iglesia distante que da las horas del mediodía
- El claxon de un coche en medio del tráfico
- Niños enojados rompiendo vidrios en señal de frustración
- Una máquina de escribir antigua haciendo ruido
- Una niña gritando ante la visión más demente y vil.
- Un silbato de tren sonando en la distancia
6 Comparación de múltiples eventos
Descripciones de texto vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- Una campana suena mientras un reloj hace tictac y un hombre habla a través de un altavoz de televisión de fondo seguido de un sonido de campana apagado.
- Zumbido y ruido de un motor con un hombre hablando
- Una serie de disparos de ametralladora y dos disparos de arma de fuego mientras un avión a reacción pasa volando seguido de una música suave.
- La mujer habla, la niña habla, aplausos, ruidos croantes interrumpen, seguidos de risas.
- Un hombre habla mientras el papel cruje, seguido del crujido del plástico y luego el inodoro se descarga.
- La lluvia cae mientras la gente habla y ríe de fondo.
- La gente camina pesadamente, se detiene, desliza los pies, camina, se detiene y comienza a caminar nuevamente.
7 Comparación de mapas de atención cruzada
Las comparaciones incluyen:
Aufusión sin preentrenamiento / Aufusión con clip / Aufusión con aplausos / Aufusión con aplausos5 / Tango.
8. Transferencia de estilo de audio guiada por texto
Ejemplos:
- Desde los gritos de los gatos hasta las carreras de coches.
- Desde el canto de los pájaros hasta la sirena de la ambulancia.
- Desde el llanto de un bebé hasta el maullido de un gato.
Otros comentarios
- Compartiremos nuestro código en GitHub para abrir el código fuente del modelo de generación de audio, su entrenamiento y evaluación para una comparación más sencilla.
- Estamos confirmando los problemas de derechos de autor relacionados con los datos, después de lo cual se publicarán los modelos previamente entrenados.
Mejoras futuras
- Publicar sitio web de demostración y enlace a arXiv.
- Publicar puntos de control Auffusion y Auffusion-Full.
- Añadir transferencia de estilo guiada por texto.
- Añadir generación de audio a audio.
- Añadir audio en la pintura.
- Añadir control de intercambio de palabras y reponderación basado en la atención (prompt2prompt-based).
- Añade audio de súper resolución.
- Cree una aplicación web Gradio que integre audio a audio, restauración de imagen, transferencia de estilo y súper resolución.
- Añadir preprocesamiento de datos y código de entrenamiento.
Reconocimiento
Este sitio web se crea a partir del trabajo en GitHub de AudioLDM.
Preguntas frecuentes
- ¿Qué es Auffusion?
Auffusion es un modelo de generación de texto a audio de última generación que aprovecha modelos de difusión y modelos de lenguaje amplios para crear audio de alta calidad a partir de indicaciones textuales. - ¿Cómo funciona la generación de texto a audio?
El sistema transforma descripciones textuales en audio al mapear incrustaciones de texto en espacios de características de audio utilizando un modelo de difusión latente, lo que garantiza alta fidelidad y alineación precisa. - ¿Cuáles son las características principales de Auffusion?
Auffusion admite la generación de texto a audio, la transformación de audio a audio, la inserción de audio y la transferencia de estilos de audio guiada por texto. - ¿Qué papel juega la difusión en este modelo?
Los modelos de difusión ayudan a transformar gradualmente el ruido aleatorio en señales de audio coherentes siguiendo el proceso de difusión inversa guiado por entradas textuales. - ¿El modelo es de código abierto?
Sí, el código y los puntos de control del modelo están pensados para ser de código abierto, lo que permitirá a la comunidad de investigación acceder al proyecto y desarrollarlo. - ¿Qué hardware se requiere para ejecutar Auffusion?
El modelo se ha entrenado en una sola GPU A6000; sin embargo, el rendimiento puede variar según el hardware y la configuración específica. - ¿Cómo puedo intentar generar audio con Auffusion?
Puede ejecutar el código de inferencia proporcionado o utilizar los cuadernos de Colab para generar muestras de audio a partir de sus propias indicaciones de texto. - ¿Qué es Audio InPainting?
Audio InPainting es el proceso de rellenar las partes faltantes de un clip de audio, garantizando transiciones perfectas y manteniendo la integridad general del sonido. - ¿Puedo utilizar el modelo para fines comerciales?
Los derechos de uso dependen de la licencia del modelo; revise la licencia del repositorio y la documentación adjunta para conocer las pautas de uso comercial. - ¿Cómo puedo contribuir al proyecto Auffusion?
Puedes contribuir informando problemas, sugiriendo mejoras o enviando solicitudes de extracción a través del repositorio de GitHub del proyecto.