총성 두 발에 이어 새들의 지저귐

개가 짖는다

천둥과 번개가 치는 가운데 경기장에서 환호하는 사람들

최첨단 기술을 탐험하세요 텍스트-오디오오디오 대 오디오및 오디오 인페인팅 확산과 대규모 언어 모델을 기반으로 하는 기술입니다.

1 탐색

2 논문 개요

Auffusion: 텍스트-오디오 생성을 위한 확산 및 대규모 언어 모델의 힘 활용

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, 베이징 우편대학, 중국 베이징

ArXiv에 게재된 논문 | GitHub의 코드 | 껴안는 얼굴

2.1 초록

최근 확산 모델과 대규모 언어 모델(LLM)의 발전으로 AIGC 분야가 상당히 발전했습니다. 텍스트-오디오 (TTA)는 자연어 프롬프트에서 오디오를 생성하도록 설계된 급성장하는 AIGC 애플리케이션으로, 점점 더 많은 주목을 받고 있습니다. 그러나 기존 TTA 연구는 종종 생성 품질과 텍스트-오디오 정렬에 어려움을 겪고 있으며, 특히 복잡한 텍스트 입력의 경우 그렇습니다. 최첨단 텍스트-이미지(T2I) 확산 모델에서 영감을 얻어, 고유한 생성 강점과 정확한 교차 모달 정렬을 활용하여 오디오 생성을 위한 T2I 모델 프레임워크를 적용하는 TTA 시스템인 Auffusion을 소개합니다. 객관적이고 주관적인 평가에 따르면 Auffusion은 제한된 데이터와 계산 리소스를 사용하더라도 이전 TTA 접근 방식을 능가합니다. 포괄적인 절제 연구와 혁신적인 교차 주의 맵 시각화는 오디오 스타일 전송, 인페인팅 및 기타 조작과 같은 관련 작업에 도움이 되는 뛰어난 텍스트-오디오 정렬을 더욱 잘 보여줍니다.

2.2 참고사항

  • Auffusion은 텍스트에 따른 음향 효과, 사람의 말, 음악을 생성합니다.
  • 잠재 확산 모델(LDM)은 교차 관심을 사용하는 안정적 확산을 기반으로 단일 A6000 GPU에서 훈련됩니다.
  • 강력한 텍스트-오디오 정렬을 통해 텍스트 기반 오디오 스타일 전송, 인페인팅, 주의 기반 재가중치/교체 조작이 가능합니다.

2.3 그림 1: Auffusion 아키텍처 개요

훈련 및 추론 프로세스에는 오디오, 스펙트로그램, 픽셀 및 잠재 공간의 네 가지 특징 공간 간의 왕복 변환이 포함됩니다. U-Net은 사전 훈련된 텍스트-이미지 LDM으로 초기화됩니다.

3 목차

4 텍스트-오디오 생성

4.1 짧은 샘플:

  • 총성 두 발에 이어 새들의 지저귐 / 개 짖는 소리 / 경기장에서 사람들이 환호하는 소리, 천둥과 번개가 친다

4.2 음향 환경 제어:

  • 한 남자가 큰 방에서 말하고 있다 / 한 남자가 작은 방에서 말하고 있다 / 한 남자가 스튜디오에서 말하고 있다

4.3 재료 관리:

  • 나무 테이블 위에서 토마토를 다진다 / 나무 테이블 위에서 고기를 다진다 / 금속 테이블 위에서 감자를 다진다

4.4 피치 제어:

  • 낮은 피치의 사인파 / 중간 피치의 사인파 / 높은 피치의 사인파

4.5 시간 순서 제어:

  • 경주차가 지나가며 사라진다 / 총성 두 발에 이어 새들이 지저귀며 날아간다 / 나무 탁자 두드리는 소리에 이어 물 쏟아지는 소리

4.6 레이블-오디오 생성:

  • 사이렌 / 천둥 / 꿀꿀
  • 폭발 / 박수 / 방귀
  • 전기톱 / 불꽃놀이 / 닭, 수탉
  • 무조건 생성: “무효”

ChatGPT 텍스트 프롬프트를 사용한 5 TTA 생성

  • 꽃이 만발한 정원에서 새들이 달콤하게 노래합니다
  • 주의를 끌기 위해 으르렁거리는 새끼 고양이
  • 마법의 숲에 울려 퍼지는 마법의 요정의 웃음소리
  • 잠자리에 들기 전 들려주는 부드러운 속삭임
  • 원숭이가 큰 원자폭탄에 머리를 맞기 전에 웃는다
  • 노트에 낙서하는 연필
  • 연못에 물이 튀는 모습
  • 돼지 저금통에서 동전이 딸랑거리는 소리
  • 스튜디오에서 아이가 휘파람을 불고 있다
  • 멀리서 들려오는 정오를 알리는 교회 종소리
  • 교통 체증 속에서 울리는 자동차 경적 소리
  • 화가 난 아이들이 좌절해서 유리를 깨는 모습
  • 구식 타자기의 딸각거리는 소리
  • 가장 미친 듯한 흉악한 광경에 비명을 지르는 소녀
  • 멀리서 들리는 기차 기적 소리

6 다중 이벤트 비교

텍스트 설명 vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • 시계가 똑딱거리고 배경에서 한 남자가 텔레비전 스피커를 통해 이야기하는 동안 종이 울리고 그 뒤에는 흐릿한 종이 울립니다.
  • 남자가 말하는 동안 모터의 윙윙거리는 소리와 윙윙거리는 소리
  • 제트기가 지나가면서 기관총 사격과 총격 두 발이 연달아 울린 후 부드러운 음악이 흘러나온다.
  • 여자가 말하고, 여자가 말하고, 박수치고, 꽥꽥거리는 소리가 끊기고, 웃음이 이어진다.
  • 종이가 구겨지고 플라스틱이 삐걱거리는 소리가 들리고 변기가 물을 내리는 동안 남자가 말을 합니다.
  • 사람들이 배경에서 이야기하고 웃는 가운데 비가 내립니다.
  • 사람들은 힘들게 걷고, 멈추고, 발을 미끄러뜨리고, 걷고, 멈추고, 다시 걷기 시작합니다.

7 크로스 어텐션 맵 비교

비교 내용은 다음과 같습니다.
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.

8 텍스트 가이드 오디오 스타일 전송

예시:

  • 고양이의 비명소리부터 자동차 경주까지.
  • 새 지저귐부터 구급차 사이렌까지.
  • 아기의 울음소리부터 고양이의 야옹거림까지.

기타 의견

  1. 우리는 오디오 생성 모델의 훈련과 평가를 더 쉽게 비교할 수 있도록 오픈 소스로 만들기 위해 GitHub에 코드를 공유할 것입니다.
  2. 사전 학습된 모델이 출시되면 데이터 관련 저작권 문제를 확인하고 있습니다.

향후 개선 사항

  • 데모 웹사이트와 arXiv 링크를 게시합니다.
  • Auffusion 및 Auffusion-Full 체크포인트를 게시합니다.
  • 텍스트 가이드 스타일 전송을 추가합니다.
  • 오디오-오디오 생성을 추가합니다.
  • 오디오 인페인팅을 추가합니다.
  • 주의 기반 단어 교환 및 재가중치 제어(prompt2prompt 기반)를 추가합니다.
  • 오디오 초고해상도를 추가합니다.
  • 오디오 대 오디오, 인페인팅, 스타일 전송, 초고해상도를 통합한 Gradio 웹 애플리케이션을 만들어보세요.
  • 데이터 전처리 및 훈련 코드를 추가합니다.

승인

이 웹사이트는 다음의 작업을 기반으로 만들어졌습니다. 오디오LDM GitHub.

자주 묻는 질문

  1. Auffusion이란 무엇인가?
    Auffusion은 확산 모델과 대규모 언어 모델을 활용하여 텍스트 프롬프트에서 고품질 오디오를 생성하는 최첨단 텍스트-오디오 생성 모델입니다.
  2. 텍스트-오디오 생성은 어떻게 작동하나요?
    이 시스템은 잠재 확산 모델을 사용하여 텍스트 임베딩을 오디오 특징 공간에 매핑함으로써 텍스트 설명을 오디오로 변환하여 높은 충실도와 정확한 정렬을 보장합니다.
  3. Auffusion의 핵심 기능은 무엇입니까?
    Auffusion은 텍스트-오디오 생성, 오디오-오디오 변환, 오디오 인페인팅, 텍스트 안내 오디오 스타일 전송을 지원합니다.
  4. 이 모델에서 확산은 어떤 역할을 하나요?
    확산 모델은 텍스트 입력에 따라 역 확산 과정을 따라 무작위 노이즈를 점진적으로 일관된 오디오 신호로 변환하는 데 도움이 됩니다.
  5. 이 모델은 오픈 소스인가요?
    네, 코드와 모델 체크포인트는 오픈 소스로 공개되어 연구 커뮤니티가 프로젝트에 접근하고 이를 바탕으로 개발을 진행할 수 있도록 설계되었습니다.
  6. Auffusion을 실행하려면 어떤 하드웨어가 필요합니까?
    이 모델은 단일 A6000 GPU에서 학습되었지만, 성능은 하드웨어와 특정 설정에 따라 달라질 수 있습니다.
  7. Auffusion으로 오디오를 생성해 보려면 어떻게 해야 하나요?
    제공된 추론 코드를 실행하거나 Colab 노트북을 사용하여 사용자의 텍스트 프롬프트에서 오디오 샘플을 생성할 수 있습니다.
  8. 오디오 인페인팅이란?
    오디오 인페인팅은 오디오 클립에서 누락된 부분을 채워서 원활한 전환을 보장하고 전반적인 사운드 무결성을 유지하는 프로세스입니다.
  9. 이 모델을 상업적 목적으로 사용할 수 있나요?
    사용 권한은 모델 라이선스에 따라 달라집니다. 상업적 사용 지침은 저장소 라이선스와 함께 제공되는 문서를 검토하세요.
  10. Auffusion 프로젝트에 어떻게 기여할 수 있나요?
    여러분은 프로젝트의 GitHub 저장소를 통해 문제 보고, 개선 제안 또는 풀 리퀘스트 제출을 통해 기여할 수 있습니다.