Два выстрела, сопровождаемые щебетанием птиц.

Собака лает

Люди ликуют на стадионе во время раскатов грома и ударов молний

Исследуйте самые современные технологии Текст-в-аудиоаудио-в-аудио, и Аудио InPainting методы, основанные на диффузии и больших языковых моделях.

1 Навигация

2 Обзор статьи

Auffusion: использование силы диффузии и больших языковых моделей для преобразования текста в аудио

Цзиньлун Сюэ, Яюэ Дэн, Инмин Гао, Я Ли
1, Пекинский университет почты и телекоммуникаций, Пекин, Китай

Статья на ArXiv | Код на GitHub | Обнимающее лицо

2.1 Аннотация

Недавние достижения в области диффузионных моделей и больших языковых моделей (LLM) значительно продвинули область AIGC. Текст-в-аудио (TTA), растущее приложение AIGC, предназначенное для генерации аудио из подсказок естественного языка, привлекает все большее внимание. Однако существующие исследования TTA часто сталкиваются с трудностями в качестве генерации и выравнивании текста и звука, особенно для сложных текстовых входных данных. Черпая вдохновение из современных моделей диффузии текста в изображение (T2I), мы представляем Aufffusion — систему TTA, которая адаптирует рамки модели T2I для генерации звука, используя присущие ей генеративные сильные стороны и точное кросс-модальное выравнивание. Объективные и субъективные оценки показывают, что Aufffusion превосходит предыдущие подходы TTA, даже при использовании ограниченных данных и вычислительных ресурсов. Комплексные исследования абляции и инновационные визуализации карт перекрестного внимания дополнительно демонстрируют его превосходное выравнивание текста и звука, принося пользу связанным задачам, таким как передача стиля звука, инрисовка и другие манипуляции.

2.2 Примечание

  • Aufffusion генерирует обусловленные текстом звуковые эффекты, человеческую речь и музыку.
  • Модель скрытой диффузии (LDM) обучается на одном графическом процессоре A6000 на основе стабильной диффузии с использованием перекрестного внимания.
  • Его надежное соответствие тексту и аудио позволяет осуществлять передачу аудиостиля, инрисовку и манипуляции с переоценкой/заменой на основе внимания.

2.3 Рисунок 1: Обзор архитектуры ауффузии

Процесс обучения и вывода включает в себя обратные и прямыe преобразования между четырьмя пространствами признаков: аудио, спектрограмма, пиксел и скрытое пространство. Обратите внимание, что U-Net инициализируется с помощью предварительно обученного LDM-текста в изображение.

3 Содержание

4. Генерация текста в аудио

4.1 Короткие примеры:

  • Два выстрела, сопровождаемые щебетанием птиц / Лай собаки / Люди ликуют на стадионе, пока гремит гром и сверкают молнии

4.2 Контроль акустической среды:

  • Мужчина говорит в огромной комнате / Мужчина говорит в маленькой комнате / Мужчина говорит в студии

4.3 Контроль материалов:

  • Нарезка помидоров на деревянном столе / Нарезка мяса на деревянном столе / Нарезка картофеля на металлическом столе

4.4 Управление высотой тона:

  • Синусоида с низким тоном / Синусоида со средним тоном / Синусоида с высоким тоном

4.5 Контроль временного порядка:

  • Гоночный автомобиль проезжает мимо и исчезает / Два выстрела, за которыми следуют улетающие со щебетанием птицы / Звук постукивания по деревянному столу, за которым следует звук льющейся воды

4.6 Генерация меток для аудио:

  • Сирена / Гром / Хрю
  • Взрыв / Аплодисменты / Пук
  • Бензопила / Фейерверк / Курица, петух
  • Безусловное поколение: "Нулевой"

5 Генерация TTA с текстовым приглашением ChatGPT

  • Птицы сладко поют в цветущем саду.
  • Котенок мяукает, привлекая внимание
  • Волшебный смех фей, разносящийся по зачарованному лесу
  • Тихий шепот сказки на ночь
  • Обезьяна смеется перед тем, как получить по голове удар большой атомной бомбы.
  • Карандаш, пишущий в блокноте
  • Плеск воды в пруду
  • Монеты звенят в копилке
  • Ребенок насвистывает в студии
  • Далекий церковный колокол звонит в полдень
  • Автомобильный гудок, звучащий в пробке
  • Разгневанные дети бьют стекло от злости
  • Стук старой пишущей машинки
  • Девушка кричит от самого безумного и отвратительного зрелища.
  • Где-то вдалеке раздается гудок поезда

6 Сравнение нескольких событий

Текстовые описания против Ground-Truth против AudioGen против AudioLDM против AudioLDM2 против Tango против Auffusion

  • Звон колокола, тикающие часы, и мужчина говорит через телевизионный динамик на заднем плане, после чего следует приглушенный звон колокола.
  • Жужжание и гудение мотора, говорящий мужчина
  • Серия автоматных очередей и два выстрела из огнестрельного оружия, когда мимо пролетает реактивный самолет, за которыми следует тихая музыка.
  • Женщина говорит, девочка говорит, хлопки, хрипы прерывают, за ними следует смех.
  • Мужчина разговаривает, пока шелестит бумага, за которым следует скрип пластика, а затем звук смыва в туалете.
  • Идет дождь, а на заднем плане разговаривают и смеются люди.
  • Люди тяжело ходят, останавливаются, скользят ногами, идут, останавливаются и снова начинают идти.

7 Сравнение карт перекрестного внимания

Сравнения включают:
Ауффузия-без-предварительного обучения / Ауффузия-с-зажимом / Ауффузия-с-хлопком / Ауффузия-с-flant5 / Танго.

8 Текстовый аудиостиль передачи

Примеры:

  • От кошачьих криков до автогонок.
  • От щебетания птиц до сирены скорой помощи.
  • От детского плача до кошачьего мяуканья.

Другие комментарии

  1. Мы опубликуем наш код на GitHub, чтобы открыть исходный код обучения и оценки модели генерации звука для более удобного сравнения.
  2. Мы подтверждаем наличие проблем с авторскими правами, связанных с данными, после чего будут опубликованы предварительно обученные модели.

Будущие улучшения

  • Опубликуйте демонстрационный сайт и ссылку на arXiv.
  • Опубликуйте контрольные точки Aufffusion и Aufffusion-Full.
  • Добавьте передачу стилей с помощью текста.
  • Добавить генерацию аудио-в-аудио.
  • Добавьте аудиозапись.
  • Добавьте функцию замены слов на основе внимания и управления повторным весом (prompt2prompt-based).
  • Добавьте сверхвысокое разрешение звука.
  • Создайте веб-приложение Gradio, интегрирующее аудио-в-аудио, инрисовку, перенос стилей и сверхвысокое разрешение.
  • Добавьте предварительную обработку данных и обучающий код.

Признание

Этот сайт создан на основе работы АудиоLDM GitHub.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

  1. Что такое ауффузия?
    Aufffusion — это современная модель преобразования текста в аудио, которая использует модели диффузии и большие языковые модели для создания высококачественного звука из текстовых подсказок.
  2. Как работает генерация текста в аудио?
    Система преобразует текстовые описания в аудио, отображая текстовые вставки в пространства аудиохарактеристик с использованием модели скрытой диффузии, что обеспечивает высокую точность и выравнивание.
  3. Каковы основные особенности Auffion?
    Auffusion поддерживает генерацию текста в аудио, преобразование аудио в аудио, вставку звука и передачу стиля аудио с указанием текста.
  4. Какую роль играет диффузия в этой модели?
    Модели диффузии помогают постепенно преобразовывать случайный шум в когерентные аудиосигналы, следуя процессу обратной диффузии, управляемому текстовыми входными данными.
  5. Является ли модель с открытым исходным кодом?
    Да, код и контрольные точки модели планируется сделать открытыми, что позволит исследовательскому сообществу получать доступ к проекту и развивать его.
  6. Какое оборудование требуется для запуска Aufffusion?
    Модель была обучена на одном графическом процессоре A6000; однако производительность может отличаться в зависимости от вашего оборудования и конкретной настройки.
  7. Как мне попробовать создать звук с помощью Aufffusion?
    Вы можете запустить предоставленный код вывода или использовать блокноты Colab для генерации аудиообразцов из собственных текстовых подсказок.
  8. Что такое Audio InPainting?
    Audio InPainting — это процесс заполнения недостающих частей аудиоклипа, обеспечивающий плавные переходы и сохраняющий общую целостность звука.
  9. Могу ли я использовать модель в коммерческих целях?
    Права на использование зависят от лицензии модели; ознакомьтесь с лицензией репозитория и сопроводительной документацией для ознакомления с рекомендациями по коммерческому использованию.
  10. Как я могу внести свой вклад в проект Auffion?
    Вы можете внести свой вклад, сообщая о проблемах, предлагая улучшения или отправляя запросы на включение изменений через репозиторий проекта на GitHub.