Auffusion：下一代文本转音频生成模型

两声枪响，随后是鸟鸣

有狗在叫

雷声滚滚，闪电劈过，人们在体育场欢呼

探索最先进的 文字转音频, 音频到音频和 音频修复 由传播和大型语言模型驱动的技术。

1 导航

2 论文概述

Auffusion：利用扩散和大型语言模型的强大功能实现文本转音频生成

薛金龙、邓亚跃、高英明、李亚
1，北京邮电大学，北京，中国

ArXiv 上的论文 | GitHub 上的代码 | 拥抱脸

2.1 摘要

传播模型和大型语言模型 (LLM) 的最新进展极大地推动了 AIGC 领域的发展。 文字转音频 (TTA) 是一款新兴的 AIGC 应用程序，旨在根据自然语言提示生成音频，目前正受到越来越多的关注。然而，现有的 TTA 研究通常在生成质量和文本-音频对齐方面存在困难，尤其是对于复杂的文本输入。从最先进的文本到图像 (T2I) 扩散模型中汲取灵感，我们推出了 Auffusion——一种 TTA 系统，它通过利用固有的生成优势和精确的跨模态对齐来调整 T2I 模型框架以生成音频。客观和主观评价表明，即使在使用有限的数据和计算资源时，Auffusion 也超越了以前的 TTA 方法。全面的消融研究和创新的交叉注意力图可视化进一步展示了其卓越的文本-音频对齐，使音频风格转换、修复和其他操作等相关任务受益。

2.2 注意

Auffusion 可生成文本条件音效、人类语音和音乐。
潜在扩散模型（LDM）在单个 A6000 GPU 上进行训练，基于使用交叉注意的稳定扩散。
其强大的文本音频对齐功能可实现文本引导的音频风格转换、修复和基于注意力的重新加权/替换操作。

2.3 图 1：Auffusion 架构概览

训练和推理过程涉及四个特征空间之间的来回转换：音频、频谱图、像素和潜在空间。请注意，U-Net 是使用预训练的文本到图像 LDM 初始化的。

3 目录

4 文本转音频生成

4.1 简短示例：

两声枪响后，鸟儿叽叽喳喳 / 狗叫声不断 / 体育场内雷声雷电交加，人们欢呼雀跃

4.2声环境控制：

一个男人在一个大房间里讲话 / 一个男人在一个小房间里讲话 / 一个男人在演播室讲话

4.3 材料控制：

在木桌上切西红柿 / 在木桌上切肉 / 在金属桌上切土豆

4.4 俯仰控制：

低音调正弦波 / 中音调正弦波 / 高音调正弦波

4.5 时间顺序控制：

赛车驶过并消失 / 两声枪响后鸟儿鸣叫着飞走 / 木桌敲击声后水倒出声

4.6 标签到音频的生成：

海妖 / 雷霆 / 哼哼
爆炸 / 掌声 / 放屁
电锯 / 烟花 / 鸡，公鸡
无条件生成： “无效的”

5 带有 ChatGPT 文本提示的 TTA 生成

鸟儿在鲜花盛开的花园里甜美地歌唱
小猫喵喵叫以引起注意
魔法仙女的笑声回荡在魔法森林里
轻声细语地讲着睡前故事
一只猴子在被一颗巨型原子弹击中头部前大笑
一支铅笔在记事本上乱写
池塘里的水花飞溅
存钱罐里叮当作响的硬币
一个孩子在工作室里吹口哨
远处教堂的钟声正午响起
交通中汽车鸣笛
愤怒的孩子沮丧地打碎玻璃杯
老式打字机发出咔嗒声
一个女孩因为最疯狂、最卑鄙的景象而尖叫
远处传来火车的汽笛声

6 多事件比较

文本描述 vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

钟表滴答作响，背景中一名男子通过电视扬声器说话，随后传来低沉的钟声
发动机嗡嗡作响，一名男子在说话
一架喷气式飞机飞过时，机枪声不断，两声枪响，随后播放着轻柔的音乐
女人说话，女孩说话，鼓掌，沙哑的噪音打断，接着是笑声
一名男子说话时，纸张发出沙沙声，然后是塑料吱吱作响，然后是马桶冲水声
雨下着，背景中人们在说话和笑
人们走路沉重，停顿，滑动双脚，行走，停止，然后再次行走

7 交叉注意力图对比

比较包括：
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango。

8 文本引导的音频风格转换

例子：

从猫叫到赛车。
从鸟儿的鸣叫到救护车的警报声。
从婴儿哭闹到猫喵喵叫。

其他评论

我们将在GitHub上分享我们的代码，以开源音频生成模型的训练和评估，以便于进行比较。
我们正在确认与数据相关的版权问题，之后将发布预训练的模型。

未来的增强功能

发布演示网站和 arXiv 链接。
发布 Auffusion 和 Auffusion-Full 检查点。
添加文本引导的风格转换。
添加音频到音频的生成。
添加音频修复。
添加基于注意力的词语交换和重新加权控制（基于prompt2prompt）。
添加音频超分辨率。
构建一个集成音频到音频、修复、风格转换和超分辨率的 Gradio Web 应用程序。
添加数据预处理和训练代码。

致谢

本网站基于以下作品创建： AudioLDM GitHub.

常见问题

Auffusion 是什么？
Auffusion 是一种最先进的文本到音频生成模型，它利用扩散模型和大型语言模型根据文本提示创建高质量的音频。
文本转音频的生成是如何进行的？
该系统通过使用潜在扩散模型将文本嵌入映射到音频特征空间，将文本描述转换为音频，确保高保真度和精确对齐。
Auffusion 的核心功能是什么？
Auffusion 支持文本到音频的生成、音频到音频的转换、音频修复和文本引导的音频风格转换。
扩散在这个模型中扮演什么角色？
扩散模型通过遵循文本输入引导的反向扩散过程，帮助将随机噪声逐渐转换为连贯的音频信号。
该模型是开源的吗？
是的，代码和模型检查点旨在开源，允许研究社区访问和构建该项目。
运行 Auffusion 需要什么硬件？
该模型已在单个 A6000 GPU 上进行训练；但是，性能可能会因您的硬件和特定设置而异。
我如何尝试使用 Auffusion 生成音频？
您可以运行提供的推理代码或使用 Colab 笔记本从您自己的文本提示生成音频样本。
什么是 Audio InPainting？
Audio InPainting 是填充音频片段缺失部分的过程，确保无缝过渡并保持整体声音的完整性。
我可以将该模型用于商业目的吗？
使用权取决于模型的许可证；请查看存储库许可证和随附文档以了解商业使用指南。
我如何为 Auffusion 项目做出贡献？
您可以通过报告问题、建议改进或通过项目的 GitHub 存储库提交拉取请求来做出贡献。