Dois tiros seguidos de canto de pássaros
Um cachorro está latindo
Pessoas torcendo em um estádio enquanto trovões e relâmpagos caem
Explore o estado da arte Texto para áudio, áudio para áudioe Áudio InPainting técnicas alimentadas por difusão e grandes modelos de linguagem.
1 Navegação
- Auffusion: Aproveitando o poder da difusão e dos grandes modelos de linguagem para geração de texto para áudio
- Auffusion: Aproveitando o poder da difusão e dos grandes modelos de linguagem para geração de texto para áudio
2 Visão geral do artigo
Auffusion: Aproveitando o poder da difusão e dos grandes modelos de linguagem para geração de texto para áudio
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Universidade de Correios e Telecomunicações de Pequim, Pequim, China
Artigo no ArXiv | Código no GitHub | Abraçando o Rosto
2.1 Resumo
Avanços recentes em modelos de difusão e modelos de grandes linguagens (LLMs) impulsionaram significativamente o campo do AIGC. Texto para áudio (TTA), um aplicativo AIGC em expansão projetado para gerar áudio a partir de prompts de linguagem natural, está atraindo cada vez mais atenção. No entanto, os estudos de TTA existentes geralmente enfrentam dificuldades com a qualidade da geração e o alinhamento de texto e áudio, especialmente para entradas textuais complexas. Inspirando-nos em modelos de difusão de texto para imagem (T2I) de última geração, apresentamos o Auffusion — um sistema TTA que adapta estruturas de modelo T2I para geração de áudio, aproveitando forças generativas inerentes e alinhamento preciso entre modais. Avaliações objetivas e subjetivas demonstram que o Auffusion supera abordagens TTA anteriores, mesmo ao usar dados e recursos computacionais limitados. Estudos abrangentes de ablação e visualizações inovadoras de mapas de atenção cruzada demonstram ainda mais seu alinhamento superior de texto e áudio, beneficiando tarefas relacionadas, como transferência de estilo de áudio, pintura interna e outras manipulações.
2.2 Nota
- O Auffusion gera efeitos sonoros condicionados a texto, fala humana e música.
- O modelo de difusão latente (LDM) é treinado em uma única GPU A6000, com base na difusão estável usando atenção cruzada.
- Seu forte alinhamento de texto e áudio permite transferência de estilo de áudio guiada por texto, pintura interna e manipulações de reponderação/substituição baseadas em atenção.
2.3 Figura 1: Visão geral da arquitetura de Auffusion
O processo de treinamento e inferência envolve transformações de ida e volta entre quatro espaços de características: áudio, espectrograma, pixel e espaço latente. Observe que a U-Net é inicializada com um LDM de texto para imagem pré-treinado.
3 Índice
- Geração de texto para áudio
- Geração de TTA com prompt de texto ChatGPT
- Comparação de eventos múltiplos
- Comparação de Mapa de Atenção Cruzada
- Transferência de estilo de áudio guiada por texto
- Pintura de áudio
- Substituição baseada na atenção
- Reponderação baseada na atenção
- Outros Comentários
- Melhorias futuras
- FAQ
4 Geração de texto para áudio
4.1 Amostras curtas:
- Dois tiros seguidos de pássaros cantando / Um cachorro está latindo / Pessoas torcendo em um estádio enquanto trovões e relâmpagos caem
4.2 Controle do ambiente acústico:
- Um homem está falando em uma sala enorme / Um homem está falando em uma sala pequena / Um homem está falando em um estúdio
4.3 Controle de materiais:
- Cortando tomates em uma mesa de madeira / Cortando carne em uma mesa de madeira / Cortando batatas em uma mesa de metal
4.4 Controle de pitch:
- Onda senoidal com tom baixo / Onda senoidal com tom médio / Onda senoidal com tom alto
4.5 Controle de Ordem Temporal:
- Um carro de corrida está passando e desaparecendo / Dois tiros seguidos por pássaros voando para longe enquanto cantam / Som de batidas na mesa de madeira seguido por som de água jorrando
4.6 Geração de rótulo para áudio:
- Sirene / Trovão / Oink
- Explosão / Aplausos / Peido
- Motosserra / Fogos de artifício / Galinha, galo
- Geração Incondicional: "Nulo"
5 Geração TTA com prompt de texto ChatGPT
- Pássaros cantando docemente em um jardim florido
- Um gatinho miando para chamar atenção
- Risadas mágicas de fadas ecoando por uma floresta encantada
- Sussurros suaves de uma história de ninar sendo contada
- Um macaco ri antes de ser atingido na cabeça por uma grande bomba atômica
- Um lápis rabiscando em um bloco de notas
- O respingo de água em um lago
- Moedas tilintando em um cofrinho
- Uma criança está assobiando em um estúdio
- Um sino de igreja distante tocando meio-dia
- A buzina de um carro tocando no trânsito
- Crianças furiosas quebrando vidros de frustração
- Uma máquina de escrever antiquada estalando
- Uma garota gritando com a visão mais demente e vil
- Um apito de trem soprando à distância
6 Comparação de eventos múltiplos
Descrições de texto vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- Um sino tocando enquanto um relógio faz tique-taque e um homem fala através de um alto-falante de televisão ao fundo, seguido por um sino abafado tocando
- Zumbido e zumbido de um motor com um homem falando
- Uma série de tiros de metralhadora e dois tiros disparados enquanto um avião a jato voa, seguidos por uma música suave tocando
- Mulher fala, menina fala, palmas, barulho de coaxar interrompe, seguido de risadas
- Um homem falando enquanto o papel amassa, seguido pelo plástico rangendo e depois a descarga do vaso sanitário
- A chuva cai enquanto as pessoas conversam e riem ao fundo
- As pessoas andam pesadamente, param, deslizam os pés, andam, param e começam a andar novamente
7 Comparação de Mapa de Atenção Cruzada
As comparações incluem:
Auffusion-sem-pré-treino / Auffusion-com-clipe / Auffusion-com-palmas / Auffusion-com-flant5 / Tango.
8 Transferência de estilo de áudio guiada por texto
Exemplos:
- De gritos de gato a corridas de carro.
- Do canto dos pássaros à sirene da ambulância.
- Do choro de bebê ao miado de gato.
Outros Comentários
- Compartilharemos nosso código no GitHub para tornar público o treinamento e a avaliação do modelo de geração de áudio para facilitar a comparação.
- Estamos confirmando as questões de direitos autorais relacionadas aos dados, após o que os modelos pré-treinados serão liberados.
Melhorias futuras
- Publique o site de demonstração e o link do arXiv.
- Publique os pontos de verificação do Auffusion e do Auffusion-Full.
- Adicione transferência de estilo guiada por texto.
- Adicione geração de áudio para áudio.
- Adicione pintura de áudio.
- Adicione troca de palavras baseada em atenção e controle de repondero (baseado em prompt2prompt).
- Adicione super-resolução de áudio.
- Crie um aplicativo web Gradio integrando áudio para áudio, pintura interna, transferência de estilo e super-resolução.
- Adicione pré-processamento de dados e código de treinamento.
Reconhecimento
Este site foi criado com base no trabalho de ÁudioLDM GitHub.
FAQ
- O que é Auffusion?
Auffusion é um modelo de geração de texto para áudio de última geração que aproveita modelos de difusão e grandes modelos de linguagem para criar áudio de alta qualidade a partir de prompts textuais. - Como funciona a geração de texto para áudio?
O sistema transforma descrições textuais em áudio mapeando incorporações de texto em espaços de recursos de áudio usando um modelo de difusão latente, garantindo alta fidelidade e alinhamento preciso. - Quais são os principais recursos do Auffusion?
O Auffusion oferece suporte à geração de texto para áudio, transformação de áudio para áudio, pintura de áudio e transferência de estilo de áudio guiada por texto. - Qual o papel da difusão neste modelo?
Os modelos de difusão ajudam a transformar gradualmente ruído aleatório em sinais de áudio coerentes seguindo o processo de difusão reversa guiado por entradas textuais. - O modelo é de código aberto?
Sim, os pontos de verificação do código e do modelo devem ser de código aberto, permitindo que a comunidade de pesquisa acesse e desenvolva o projeto. - Qual hardware é necessário para executar o Auffusion?
O modelo foi treinado em uma única GPU A6000; no entanto, o desempenho pode variar dependendo do seu hardware e configuração específica. - Como posso tentar gerar áudio com o Auffusion?
Você pode executar o código de inferência fornecido ou usar os notebooks Colab para gerar amostras de áudio a partir de seus próprios prompts de texto. - O que é Audio InPainting?
Audio InPainting é o processo de preencher partes ausentes de um clipe de áudio, garantindo transições perfeitas e mantendo a integridade geral do som. - Posso usar o modelo para fins comerciais?
Os direitos de uso dependem da licença do modelo; revise a licença do repositório e a documentação que o acompanha para obter diretrizes de uso comercial. - Como posso contribuir para o projeto Auffusion?
Você pode contribuir relatando problemas, sugerindo melhorias ou enviando solicitações de pull por meio do repositório GitHub do projeto.