Dos disparos seguidos del canto de los pájaros

Un perro está ladrando

Gente animando en un estadio mientras caen truenos y relámpagos

Explora lo último en tecnología Texto a audioaudio a audio, y Audio en pintura Técnicas impulsadas por la difusión y grandes modelos de lenguaje.

1 Navegación

2 Descripción general del documento

Auffusion: Aprovechar el poder de la difusión y los grandes modelos lingüísticos para la generación de texto a audio

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universidad de Correos y Telecomunicaciones de Beijing, Beijing, China

Artículo publicado en ArXiv | Código en GitHub | Cara abrazada

2.1 Resumen

Los avances recientes en modelos de difusión y modelos de lenguaje grande (LLM) han impulsado significativamente el campo de AIGC. Texto a audio (TTA), una aplicación AIGC en expansión diseñada para generar audio a partir de indicaciones en lenguaje natural, está atrayendo cada vez más atención. Sin embargo, los estudios de TTA existentes a menudo tienen problemas con la calidad de generación y la alineación de texto-audio, especialmente para entradas textuales complejas. Inspirándonos en los modelos de difusión de texto a imagen (T2I) de última generación, presentamos Auffusion, un sistema TTA que adapta los marcos de modelos T2I para la generación de audio aprovechando las fortalezas generativas inherentes y la alineación intermodal precisa. Las evaluaciones objetivas y subjetivas demuestran que Auffusion supera los enfoques TTA anteriores, incluso cuando se utilizan datos y recursos computacionales limitados. Los estudios de ablación integrales y las visualizaciones innovadoras de mapas de atención cruzada muestran aún más su alineación superior de texto-audio, lo que beneficia las tareas relacionadas, como la transferencia de estilo de audio, la restauración de imágenes y otras manipulaciones.

2.2 Nota

  • Auffusion genera efectos de sonido condicionales de texto, voz humana y música.
  • El modelo de difusión latente (LDM) se entrena en una sola GPU A6000, basado en difusión estable utilizando atención cruzada.
  • Su fuerte alineación texto-audio permite la transferencia de estilo de audio guiada por texto, retoques y manipulaciones de reponderación/reemplazo basadas en la atención.

2.3 Figura 1: Descripción general de la arquitectura de Auffusion

El proceso de entrenamiento e inferencia implica transformaciones de ida y vuelta entre cuatro espacios de características: audio, espectrograma, píxel y espacio latente. Tenga en cuenta que la U-Net se inicializa con un LDM de texto a imagen previamente entrenado.

3 Índice de contenidos

4 Generación de texto a audio

4.1 Muestras breves:

  • Dos disparos seguidos de pájaros cantando / Un perro ladra / Gente vitoreando en un estadio mientras caen truenos y relámpagos

4.2 Control del entorno acústico:

  • Un hombre está hablando en una habitación enorme / Un hombre está hablando en una habitación pequeña / Un hombre está hablando en un estudio

4.3 Control de materiales:

  • Picar tomates en una mesa de madera / Picar carne en una mesa de madera / Picar patatas en una mesa de metal

4.4 Control de tono:

  • Onda sinusoidal de tono bajo / Onda sinusoidal de tono medio / Onda sinusoidal de tono alto

4.5 Control del orden temporal:

  • Un coche de carreras pasa y desaparece / Dos disparos seguidos de pájaros que vuelan mientras cantan / Sonido de golpeteo de una mesa de madera seguido de sonido de agua cayendo

4.6 Generación de etiquetas a audio:

  • Sirena / Trueno / Oink
  • Explosión / Aplausos / Pedo
  • Motosierra / Fuegos artificiales / Pollo, gallo
  • Generación incondicional: "Nulo"

5 Generación de TTA con mensaje de texto ChatGPT

  • Pájaros cantando dulcemente en un jardín floreciente.
  • Un gatito maullando para llamar la atención
  • La risa mágica de las hadas resuena en un bosque encantado
  • Suaves susurros de un cuento para dormir que se cuenta
  • Un mono se ríe antes de ser golpeado en la cabeza por una gran bomba atómica.
  • Un lápiz garabateando en un bloc de notas
  • El chapoteo del agua en un estanque
  • Monedas tintineando en una alcancía
  • Un niño está silbando en un estudio.
  • Una campana de iglesia distante que da las horas del mediodía
  • El claxon de un coche en medio del tráfico
  • Niños enojados rompiendo vidrios en señal de frustración
  • Una máquina de escribir antigua haciendo ruido
  • Una niña gritando ante la visión más demente y vil.
  • Un silbato de tren sonando en la distancia

6 Comparación de múltiples eventos

Descripciones de texto vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • Una campana suena mientras un reloj hace tictac y un hombre habla a través de un altavoz de televisión de fondo seguido de un sonido de campana apagado.
  • Zumbido y ruido de un motor con un hombre hablando
  • Una serie de disparos de ametralladora y dos disparos de arma de fuego mientras un avión a reacción pasa volando seguido de una música suave.
  • La mujer habla, la niña habla, aplausos, ruidos croantes interrumpen, seguidos de risas.
  • Un hombre habla mientras el papel cruje, seguido del crujido del plástico y luego el inodoro se descarga.
  • La lluvia cae mientras la gente habla y ríe de fondo.
  • La gente camina pesadamente, se detiene, desliza los pies, camina, se detiene y comienza a caminar nuevamente.

7 Comparación de mapas de atención cruzada

Las comparaciones incluyen:
Aufusión sin preentrenamiento / Aufusión con clip / Aufusión con aplausos / Aufusión con aplausos5 / Tango.

8. Transferencia de estilo de audio guiada por texto

Ejemplos:

  • Desde los gritos de los gatos hasta las carreras de coches.
  • Desde el canto de los pájaros hasta la sirena de la ambulancia.
  • Desde el llanto de un bebé hasta el maullido de un gato.

Otros comentarios

  1. Compartiremos nuestro código en GitHub para abrir el código fuente del modelo de generación de audio, su entrenamiento y evaluación para una comparación más sencilla.
  2. Estamos confirmando los problemas de derechos de autor relacionados con los datos, después de lo cual se publicarán los modelos previamente entrenados.

Mejoras futuras

  • Publicar sitio web de demostración y enlace a arXiv.
  • Publicar puntos de control Auffusion y Auffusion-Full.
  • Añadir transferencia de estilo guiada por texto.
  • Añadir generación de audio a audio.
  • Añadir audio en la pintura.
  • Añadir control de intercambio de palabras y reponderación basado en la atención (prompt2prompt-based).
  • Añade audio de súper resolución.
  • Cree una aplicación web Gradio que integre audio a audio, restauración de imagen, transferencia de estilo y súper resolución.
  • Añadir preprocesamiento de datos y código de entrenamiento.

Reconocimiento

Este sitio web se crea a partir del trabajo en GitHub de AudioLDM.

Preguntas frecuentes

  1. ¿Qué es Auffusion?
    Auffusion es un modelo de generación de texto a audio de última generación que aprovecha modelos de difusión y modelos de lenguaje amplios para crear audio de alta calidad a partir de indicaciones textuales.
  2. ¿Cómo funciona la generación de texto a audio?
    El sistema transforma descripciones textuales en audio al mapear incrustaciones de texto en espacios de características de audio utilizando un modelo de difusión latente, lo que garantiza alta fidelidad y alineación precisa.
  3. ¿Cuáles son las características principales de Auffusion?
    Auffusion admite la generación de texto a audio, la transformación de audio a audio, la inserción de audio y la transferencia de estilos de audio guiada por texto.
  4. ¿Qué papel juega la difusión en este modelo?
    Los modelos de difusión ayudan a transformar gradualmente el ruido aleatorio en señales de audio coherentes siguiendo el proceso de difusión inversa guiado por entradas textuales.
  5. ¿El modelo es de código abierto?
    Sí, el código y los puntos de control del modelo están pensados para ser de código abierto, lo que permitirá a la comunidad de investigación acceder al proyecto y desarrollarlo.
  6. ¿Qué hardware se requiere para ejecutar Auffusion?
    El modelo se ha entrenado en una sola GPU A6000; sin embargo, el rendimiento puede variar según el hardware y la configuración específica.
  7. ¿Cómo puedo intentar generar audio con Auffusion?
    Puede ejecutar el código de inferencia proporcionado o utilizar los cuadernos de Colab para generar muestras de audio a partir de sus propias indicaciones de texto.
  8. ¿Qué es Audio InPainting?
    Audio InPainting es el proceso de rellenar las partes faltantes de un clip de audio, garantizando transiciones perfectas y manteniendo la integridad general del sonido.
  9. ¿Puedo utilizar el modelo para fines comerciales?
    Los derechos de uso dependen de la licencia del modelo; revise la licencia del repositorio y la documentación adjunta para conocer las pautas de uso comercial.
  10. ¿Cómo puedo contribuir al proyecto Auffusion?
    Puedes contribuir informando problemas, sugiriendo mejoras o enviando solicitudes de extracción a través del repositorio de GitHub del proyecto.