Dois tiros seguidos de canto de pássaros

Um cachorro está latindo

Pessoas torcendo em um estádio enquanto trovões e relâmpagos caem

Explore o estado da arte Texto para áudioáudio para áudioÁudio InPainting técnicas alimentadas por difusão e grandes modelos de linguagem.

1 Navegação

2 Visão geral do artigo

Auffusion: Aproveitando o poder da difusão e dos grandes modelos de linguagem para geração de texto para áudio

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universidade de Correios e Telecomunicações de Pequim, Pequim, China

Artigo no ArXiv | Código no GitHub | Abraçando o Rosto

2.1 Resumo

Avanços recentes em modelos de difusão e modelos de grandes linguagens (LLMs) impulsionaram significativamente o campo do AIGC. Texto para áudio (TTA), um aplicativo AIGC em expansão projetado para gerar áudio a partir de prompts de linguagem natural, está atraindo cada vez mais atenção. No entanto, os estudos de TTA existentes geralmente enfrentam dificuldades com a qualidade da geração e o alinhamento de texto e áudio, especialmente para entradas textuais complexas. Inspirando-nos em modelos de difusão de texto para imagem (T2I) de última geração, apresentamos o Auffusion — um sistema TTA que adapta estruturas de modelo T2I para geração de áudio, aproveitando forças generativas inerentes e alinhamento preciso entre modais. Avaliações objetivas e subjetivas demonstram que o Auffusion supera abordagens TTA anteriores, mesmo ao usar dados e recursos computacionais limitados. Estudos abrangentes de ablação e visualizações inovadoras de mapas de atenção cruzada demonstram ainda mais seu alinhamento superior de texto e áudio, beneficiando tarefas relacionadas, como transferência de estilo de áudio, pintura interna e outras manipulações.

2.2 Nota

  • O Auffusion gera efeitos sonoros condicionados a texto, fala humana e música.
  • O modelo de difusão latente (LDM) é treinado em uma única GPU A6000, com base na difusão estável usando atenção cruzada.
  • Seu forte alinhamento de texto e áudio permite transferência de estilo de áudio guiada por texto, pintura interna e manipulações de reponderação/substituição baseadas em atenção.

2.3 Figura 1: Visão geral da arquitetura de Auffusion

O processo de treinamento e inferência envolve transformações de ida e volta entre quatro espaços de características: áudio, espectrograma, pixel e espaço latente. Observe que a U-Net é inicializada com um LDM de texto para imagem pré-treinado.

3 Índice

4 Geração de texto para áudio

4.1 Amostras curtas:

  • Dois tiros seguidos de pássaros cantando / Um cachorro está latindo / Pessoas torcendo em um estádio enquanto trovões e relâmpagos caem

4.2 Controle do ambiente acústico:

  • Um homem está falando em uma sala enorme / Um homem está falando em uma sala pequena / Um homem está falando em um estúdio

4.3 Controle de materiais:

  • Cortando tomates em uma mesa de madeira / Cortando carne em uma mesa de madeira / Cortando batatas em uma mesa de metal

4.4 Controle de pitch:

  • Onda senoidal com tom baixo / Onda senoidal com tom médio / Onda senoidal com tom alto

4.5 Controle de Ordem Temporal:

  • Um carro de corrida está passando e desaparecendo / Dois tiros seguidos por pássaros voando para longe enquanto cantam / Som de batidas na mesa de madeira seguido por som de água jorrando

4.6 Geração de rótulo para áudio:

  • Sirene / Trovão / Oink
  • Explosão / Aplausos / Peido
  • Motosserra / Fogos de artifício / Galinha, galo
  • Geração Incondicional: "Nulo"

5 Geração TTA com prompt de texto ChatGPT

  • Pássaros cantando docemente em um jardim florido
  • Um gatinho miando para chamar atenção
  • Risadas mágicas de fadas ecoando por uma floresta encantada
  • Sussurros suaves de uma história de ninar sendo contada
  • Um macaco ri antes de ser atingido na cabeça por uma grande bomba atômica
  • Um lápis rabiscando em um bloco de notas
  • O respingo de água em um lago
  • Moedas tilintando em um cofrinho
  • Uma criança está assobiando em um estúdio
  • Um sino de igreja distante tocando meio-dia
  • A buzina de um carro tocando no trânsito
  • Crianças furiosas quebrando vidros de frustração
  • Uma máquina de escrever antiquada estalando
  • Uma garota gritando com a visão mais demente e vil
  • Um apito de trem soprando à distância

6 Comparação de eventos múltiplos

Descrições de texto vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • Um sino tocando enquanto um relógio faz tique-taque e um homem fala através de um alto-falante de televisão ao fundo, seguido por um sino abafado tocando
  • Zumbido e zumbido de um motor com um homem falando
  • Uma série de tiros de metralhadora e dois tiros disparados enquanto um avião a jato voa, seguidos por uma música suave tocando
  • Mulher fala, menina fala, palmas, barulho de coaxar interrompe, seguido de risadas
  • Um homem falando enquanto o papel amassa, seguido pelo plástico rangendo e depois a descarga do vaso sanitário
  • A chuva cai enquanto as pessoas conversam e riem ao fundo
  • As pessoas andam pesadamente, param, deslizam os pés, andam, param e começam a andar novamente

7 Comparação de Mapa de Atenção Cruzada

As comparações incluem:
Auffusion-sem-pré-treino / Auffusion-com-clipe / Auffusion-com-palmas / Auffusion-com-flant5 / Tango.

8 Transferência de estilo de áudio guiada por texto

Exemplos:

  • De gritos de gato a corridas de carro.
  • Do canto dos pássaros à sirene da ambulância.
  • Do choro de bebê ao miado de gato.

Outros Comentários

  1. Compartilharemos nosso código no GitHub para tornar público o treinamento e a avaliação do modelo de geração de áudio para facilitar a comparação.
  2. Estamos confirmando as questões de direitos autorais relacionadas aos dados, após o que os modelos pré-treinados serão liberados.

Melhorias futuras

  • Publique o site de demonstração e o link do arXiv.
  • Publique os pontos de verificação do Auffusion e do Auffusion-Full.
  • Adicione transferência de estilo guiada por texto.
  • Adicione geração de áudio para áudio.
  • Adicione pintura de áudio.
  • Adicione troca de palavras baseada em atenção e controle de repondero (baseado em prompt2prompt).
  • Adicione super-resolução de áudio.
  • Crie um aplicativo web Gradio integrando áudio para áudio, pintura interna, transferência de estilo e super-resolução.
  • Adicione pré-processamento de dados e código de treinamento.

Reconhecimento

Este site foi criado com base no trabalho de ÁudioLDM GitHub.

FAQ

  1. O que é Auffusion?
    Auffusion é um modelo de geração de texto para áudio de última geração que aproveita modelos de difusão e grandes modelos de linguagem para criar áudio de alta qualidade a partir de prompts textuais.
  2. Como funciona a geração de texto para áudio?
    O sistema transforma descrições textuais em áudio mapeando incorporações de texto em espaços de recursos de áudio usando um modelo de difusão latente, garantindo alta fidelidade e alinhamento preciso.
  3. Quais são os principais recursos do Auffusion?
    O Auffusion oferece suporte à geração de texto para áudio, transformação de áudio para áudio, pintura de áudio e transferência de estilo de áudio guiada por texto.
  4. Qual o papel da difusão neste modelo?
    Os modelos de difusão ajudam a transformar gradualmente ruído aleatório em sinais de áudio coerentes seguindo o processo de difusão reversa guiado por entradas textuais.
  5. O modelo é de código aberto?
    Sim, os pontos de verificação do código e do modelo devem ser de código aberto, permitindo que a comunidade de pesquisa acesse e desenvolva o projeto.
  6. Qual hardware é necessário para executar o Auffusion?
    O modelo foi treinado em uma única GPU A6000; no entanto, o desempenho pode variar dependendo do seu hardware e configuração específica.
  7. Como posso tentar gerar áudio com o Auffusion?
    Você pode executar o código de inferência fornecido ou usar os notebooks Colab para gerar amostras de áudio a partir de seus próprios prompts de texto.
  8. O que é Audio InPainting?
    Audio InPainting é o processo de preencher partes ausentes de um clipe de áudio, garantindo transições perfeitas e mantendo a integridade geral do som.
  9. Posso usar o modelo para fins comerciais?
    Os direitos de uso dependem da licença do modelo; revise a licença do repositório e a documentação que o acompanha para obter diretrizes de uso comercial.
  10. Como posso contribuir para o projeto Auffusion?
    Você pode contribuir relatando problemas, sugerindo melhorias ou enviando solicitações de pull por meio do repositório GitHub do projeto.