Два выстрела, сопровождаемые щебетанием птиц.
Собака лает
Люди ликуют на стадионе во время раскатов грома и ударов молний
Исследуйте самые современные технологии Текст-в-аудио, аудио-в-аудио, и Аудио InPainting методы, основанные на диффузии и больших языковых моделях.
1 Навигация
- Auffusion: использование силы диффузии и больших языковых моделей для преобразования текста в аудио
- Auffusion: использование силы диффузии и больших языковых моделей для преобразования текста в аудио
2 Обзор статьи
Auffusion: использование силы диффузии и больших языковых моделей для преобразования текста в аудио
Цзиньлун Сюэ, Яюэ Дэн, Инмин Гао, Я Ли
1, Пекинский университет почты и телекоммуникаций, Пекин, Китай
Статья на ArXiv | Код на GitHub | Обнимающее лицо
2.1 Аннотация
Недавние достижения в области диффузионных моделей и больших языковых моделей (LLM) значительно продвинули область AIGC. Текст-в-аудио (TTA), растущее приложение AIGC, предназначенное для генерации аудио из подсказок естественного языка, привлекает все большее внимание. Однако существующие исследования TTA часто сталкиваются с трудностями в качестве генерации и выравнивании текста и звука, особенно для сложных текстовых входных данных. Черпая вдохновение из современных моделей диффузии текста в изображение (T2I), мы представляем Aufffusion — систему TTA, которая адаптирует рамки модели T2I для генерации звука, используя присущие ей генеративные сильные стороны и точное кросс-модальное выравнивание. Объективные и субъективные оценки показывают, что Aufffusion превосходит предыдущие подходы TTA, даже при использовании ограниченных данных и вычислительных ресурсов. Комплексные исследования абляции и инновационные визуализации карт перекрестного внимания дополнительно демонстрируют его превосходное выравнивание текста и звука, принося пользу связанным задачам, таким как передача стиля звука, инрисовка и другие манипуляции.
2.2 Примечание
- Aufffusion генерирует обусловленные текстом звуковые эффекты, человеческую речь и музыку.
- Модель скрытой диффузии (LDM) обучается на одном графическом процессоре A6000 на основе стабильной диффузии с использованием перекрестного внимания.
- Его надежное соответствие тексту и аудио позволяет осуществлять передачу аудиостиля, инрисовку и манипуляции с переоценкой/заменой на основе внимания.
2.3 Рисунок 1: Обзор архитектуры ауффузии
Процесс обучения и вывода включает в себя обратные и прямыe преобразования между четырьмя пространствами признаков: аудио, спектрограмма, пиксел и скрытое пространство. Обратите внимание, что U-Net инициализируется с помощью предварительно обученного LDM-текста в изображение.
3 Содержание
- Генерация текста в аудио
- Генерация TTA с текстовым приглашением ChatGPT
- Сравнение нескольких событий
- Сравнение карт перекрестного внимания
- Перевод аудиостиля с помощью текстового сопровождения
- Аудио Инкартирование
- Замена, основанная на внимании
- Переоценка на основе внимания
- Другие комментарии
- Будущие улучшения
- ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ
4. Генерация текста в аудио
4.1 Короткие примеры:
- Два выстрела, сопровождаемые щебетанием птиц / Лай собаки / Люди ликуют на стадионе, пока гремит гром и сверкают молнии
4.2 Контроль акустической среды:
- Мужчина говорит в огромной комнате / Мужчина говорит в маленькой комнате / Мужчина говорит в студии
4.3 Контроль материалов:
- Нарезка помидоров на деревянном столе / Нарезка мяса на деревянном столе / Нарезка картофеля на металлическом столе
4.4 Управление высотой тона:
- Синусоида с низким тоном / Синусоида со средним тоном / Синусоида с высоким тоном
4.5 Контроль временного порядка:
- Гоночный автомобиль проезжает мимо и исчезает / Два выстрела, за которыми следуют улетающие со щебетанием птицы / Звук постукивания по деревянному столу, за которым следует звук льющейся воды
4.6 Генерация меток для аудио:
- Сирена / Гром / Хрю
- Взрыв / Аплодисменты / Пук
- Бензопила / Фейерверк / Курица, петух
- Безусловное поколение: "Нулевой"
5 Генерация TTA с текстовым приглашением ChatGPT
- Птицы сладко поют в цветущем саду.
- Котенок мяукает, привлекая внимание
- Волшебный смех фей, разносящийся по зачарованному лесу
- Тихий шепот сказки на ночь
- Обезьяна смеется перед тем, как получить по голове удар большой атомной бомбы.
- Карандаш, пишущий в блокноте
- Плеск воды в пруду
- Монеты звенят в копилке
- Ребенок насвистывает в студии
- Далекий церковный колокол звонит в полдень
- Автомобильный гудок, звучащий в пробке
- Разгневанные дети бьют стекло от злости
- Стук старой пишущей машинки
- Девушка кричит от самого безумного и отвратительного зрелища.
- Где-то вдалеке раздается гудок поезда
6 Сравнение нескольких событий
Текстовые описания против Ground-Truth против AudioGen против AudioLDM против AudioLDM2 против Tango против Auffusion
- Звон колокола, тикающие часы, и мужчина говорит через телевизионный динамик на заднем плане, после чего следует приглушенный звон колокола.
- Жужжание и гудение мотора, говорящий мужчина
- Серия автоматных очередей и два выстрела из огнестрельного оружия, когда мимо пролетает реактивный самолет, за которыми следует тихая музыка.
- Женщина говорит, девочка говорит, хлопки, хрипы прерывают, за ними следует смех.
- Мужчина разговаривает, пока шелестит бумага, за которым следует скрип пластика, а затем звук смыва в туалете.
- Идет дождь, а на заднем плане разговаривают и смеются люди.
- Люди тяжело ходят, останавливаются, скользят ногами, идут, останавливаются и снова начинают идти.
7 Сравнение карт перекрестного внимания
Сравнения включают:
Ауффузия-без-предварительного обучения / Ауффузия-с-зажимом / Ауффузия-с-хлопком / Ауффузия-с-flant5 / Танго.
8 Текстовый аудиостиль передачи
Примеры:
- От кошачьих криков до автогонок.
- От щебетания птиц до сирены скорой помощи.
- От детского плача до кошачьего мяуканья.
Другие комментарии
- Мы опубликуем наш код на GitHub, чтобы открыть исходный код обучения и оценки модели генерации звука для более удобного сравнения.
- Мы подтверждаем наличие проблем с авторскими правами, связанных с данными, после чего будут опубликованы предварительно обученные модели.
Будущие улучшения
- Опубликуйте демонстрационный сайт и ссылку на arXiv.
- Опубликуйте контрольные точки Aufffusion и Aufffusion-Full.
- Добавьте передачу стилей с помощью текста.
- Добавить генерацию аудио-в-аудио.
- Добавьте аудиозапись.
- Добавьте функцию замены слов на основе внимания и управления повторным весом (prompt2prompt-based).
- Добавьте сверхвысокое разрешение звука.
- Создайте веб-приложение Gradio, интегрирующее аудио-в-аудио, инрисовку, перенос стилей и сверхвысокое разрешение.
- Добавьте предварительную обработку данных и обучающий код.
Признание
Этот сайт создан на основе работы АудиоLDM GitHub.
ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ
- Что такое ауффузия?
Aufffusion — это современная модель преобразования текста в аудио, которая использует модели диффузии и большие языковые модели для создания высококачественного звука из текстовых подсказок. - Как работает генерация текста в аудио?
Система преобразует текстовые описания в аудио, отображая текстовые вставки в пространства аудиохарактеристик с использованием модели скрытой диффузии, что обеспечивает высокую точность и выравнивание. - Каковы основные особенности Auffion?
Auffusion поддерживает генерацию текста в аудио, преобразование аудио в аудио, вставку звука и передачу стиля аудио с указанием текста. - Какую роль играет диффузия в этой модели?
Модели диффузии помогают постепенно преобразовывать случайный шум в когерентные аудиосигналы, следуя процессу обратной диффузии, управляемому текстовыми входными данными. - Является ли модель с открытым исходным кодом?
Да, код и контрольные точки модели планируется сделать открытыми, что позволит исследовательскому сообществу получать доступ к проекту и развивать его. - Какое оборудование требуется для запуска Aufffusion?
Модель была обучена на одном графическом процессоре A6000; однако производительность может отличаться в зависимости от вашего оборудования и конкретной настройки. - Как мне попробовать создать звук с помощью Aufffusion?
Вы можете запустить предоставленный код вывода или использовать блокноты Colab для генерации аудиообразцов из собственных текстовых подсказок. - Что такое Audio InPainting?
Audio InPainting — это процесс заполнения недостающих частей аудиоклипа, обеспечивающий плавные переходы и сохраняющий общую целостность звука. - Могу ли я использовать модель в коммерческих целях?
Права на использование зависят от лицензии модели; ознакомьтесь с лицензией репозитория и сопроводительной документацией для ознакомления с рекомендациями по коммерческому использованию. - Как я могу внести свой вклад в проект Auffion?
Вы можете внести свой вклад, сообщая о проблемах, предлагая улучшения или отправляя запросы на включение изменений через репозиторий проекта на GitHub.