Dva výstřely následované cvrlikáním ptáků

Pes štěká

Lidé jásají na stadionu, zatímco se valí hromy a blesky

Prozkoumejte nejmodernější technologie Text-to-Audioaudio-to-audioAudio InPainting techniky poháněné difúzí a velkými jazykovými modely.

1 Navigace

2 Přehled papíru

Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Pekingská univerzita pošt a telekomunikací, Peking, Čína

Článek o ArXiv | Kód na GitHubu | Objímání obličeje

2.1 Abstrakt

Nedávné pokroky v difúzních modelech a velkých jazykových modelech (LLM) významně posunuly oblast AIGC. Text-to-Audio (TTA), rozvíjející se aplikace AIGC navržená pro generování zvuku z podnětů přirozeného jazyka, přitahuje stále větší pozornost. Stávající studie TTA však často bojují s kvalitou generování a zarovnáním textu a zvuku, zejména u složitých textových vstupů. Inspiraci čerpáme z nejmodernějších modelů šíření textu na obrázek (T2I) a představujeme Auffusion – systém TTA, který přizpůsobuje modelové rámce T2I pro generování zvuku využitím přirozených generativních silných stránek a přesného mezimodálního zarovnání. Objektivní a subjektivní hodnocení ukazují, že Auffusion překonává předchozí přístupy TTA, a to i při použití omezených dat a výpočetních zdrojů. Komplexní ablační studie a inovativní mapové vizualizace s křížovou pozorností dále předvádějí jeho vynikající zarovnání textu a zvuku, což přináší výhody souvisejícím úkolům, jako je přenos zvukového stylu, malování a další manipulace.

2.2 Poznámka

  • Auffusion generuje textově podmíněné zvukové efekty, lidskou řeč a hudbu.
  • Model latentní difúze (LDM) je trénován na jediném GPU A6000 založeném na stabilní difúzi využívající křížovou pozornost.
  • Jeho silné zarovnání textu a zvuku umožňuje textově řízený přenos stylu zvuku, malování a manipulace se změnou váhy/záměnou na základě pozornosti.

2.3 Obrázek 1: Přehled architektury Auffusion

Proces trénování a vyvozování zahrnuje transformace tam a zpět mezi čtyřmi prostorovými prvky: zvukem, spektrogramem, pixelem a latentním prostorem. Všimněte si, že U-Net je inicializován pomocí předem připraveného LDM pro převod textu na obrázek.

3 Obsah

4 Generování převodu textu na zvuk

4.1 Krátké ukázky:

  • Dva výstřely následované cvrlikáním ptáků / Pes štěká / Lidé jásají na stadionu, zatímco se valí hromy a blesky

4.2 Ovládání akustického prostředí:

  • Muž mluví v obrovské místnosti / Muž mluví v malé místnosti / Muž mluví ve studiu

4.3 Kontrola materiálu:

  • Sekání rajčat na dřevěný stůl / Sekání masa na dřevěný stůl / Sekání brambor na kovový stůl

4.4 Ovládání výšky tónu:

  • Sinusovka s nízkou výškou / Sinusová vlna se střední výškou / Sinusová vlna s vysokou výškou

4.5 Dočasná kontrola objednávky:

  • Závodní auto projíždí a mizí / Dva výstřely následované ptáky odlétajícími za cvrlikání / Zvuk klepání dřevěného stolu následovaný zvukem tečení vody

4.6 Generování label-to-Audio:

  • Siréna / Hrom / Oink
  • Výbuch / Potlesk / Prd
  • Motorová pila / Ohňostroje / Kuře, kohout
  • Bezpodmínečná generace: "Nulové"

5 Generování TTA s textovou výzvou ChatGPT

  • Ptáci zpívají sladce v rozkvetlé zahradě
  • Kotě mňouká o pozornost
  • Kouzelný smích víl se ozývá kouzelným lesem
  • Jemný šepot vyprávění pohádky před spaním
  • Opice se směje, než ji udeří do hlavy velká atomová bomba
  • Tužka čmárající do poznámkového bloku
  • Šplouchání vody v rybníku
  • Mince cinkají v prasátku
  • Dítě si píská ve studiu
  • Vzdálený kostelní zvon odbíjel poledne
  • V provozu troubí auto
  • Rozzlobené děti rozbíjejí sklo ve frustraci
  • Klakání staromódního psacího stroje
  • Dívka křičící na ten nejdementnější a nejhnusnější pohled
  • V dálce se ozvala píšťalka vlaku

6 Porovnání více událostí

Textové popisy vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

  • Zvonek bijící jako hodiny tikají a muž mluví prostřednictvím televizního reproduktoru v pozadí a následuje tlumený zvonek
  • Bzučení a hučení motoru s mluvícím mužem
  • Série výstřelů z kulometů a dvou výstřelů, když proudové letadlo letí, následuje jemná hudba
  • Žena mluví, dívka mluví, tleskání, skřehotání přerušuje, následuje smích
  • Muž mluví, jako by se vrzal papír, následovalo vrzání plastu a pak splachování záchodu
  • Déšť padá, když lidé mluví a smějí se v pozadí
  • Lidé chodí ztěžka, zastavují se, kloužou nohama, jdou, zastaví se a znovu začnou chodit

7 Cross Attention Map Comparison

Srovnání zahrnují:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flat5 / Tango.

8 Přenos zvukového stylu s textovým průvodcem

Příklady:

  • Od kočičího křiku až po automobilové závody.
  • Od ptačího cvrlikání po sirénu sanitky.
  • Od dětského pláče po kočičí mňoukání.

Další komentáře

  1. Náš kód budeme sdílet na GitHubu, abychom s otevřeným zdrojovým kódem procvičili a vyhodnotili model generování zvuku pro snazší porovnání.
  2. Potvrzujeme problémy s autorským právem související s daty, po kterých budou předtrénované modely uvolněny.

Budoucí vylepšení

  • Zveřejněte demo webovou stránku a odkaz na arXiv.
  • Publikování kontrolních bodů Auffusion a Auffusion-Full.
  • Přidejte textově řízený přenos stylu.
  • Přidejte generování zvuku do zvuku.
  • Přidejte zvukovou malbu.
  • Přidejte záměnu slov na základě pozornosti a kontrolu váhy (založené na prompt2prompt).
  • Přidejte zvuk ve vysokém rozlišení.
  • Vytvořte webovou aplikaci Gradio integrující audio-a-zvuk, malování, přenos stylů a super-rozlišení.
  • Přidejte předzpracování dat a tréninkový kód.

Potvrzení

Tento web je vytvořen na základě práce na AudioLDM GitHub.

FAQ

  1. Co je Auffusion?
    Auffusion je nejmodernější model generování textu na zvuk, který využívá modely difúze a velké jazykové modely k vytvoření vysoce kvalitního zvuku z textových výzev.
  2. Jak funguje generování textu na zvuk?
    Systém převádí textové popisy na zvuk mapováním vložených textů do prostorů zvukových funkcí pomocí modelu latentní difúze, což zajišťuje vysokou věrnost a přesné zarovnání.
  3. Jaké jsou hlavní rysy Auffusion?
    Auffusion podporuje generování textu na zvuk, transformaci zvuku na zvuk, vykreslování zvuku a přenos stylů zvuku řízený textem.
  4. Jakou roli hraje v tomto modelu difúze?
    Difúzní modely pomáhají při postupné transformaci náhodného šumu na koherentní zvukové signály sledováním procesu zpětné difúze řízeného textovými vstupy.
  5. Je model open-source?
    Ano, kontrolní body kódu a modelu jsou zamýšleny jako open-source, což výzkumné komunitě umožňuje přístup k projektu a budování na něm.
  6. Jaký hardware je potřeba ke spuštění Auffusion?
    Model byl trénován na jediném GPU A6000; výkon se však může lišit v závislosti na vašem hardwaru a konkrétním nastavení.
  7. Jak mohu zkusit generovat zvuk pomocí Auffusion?
    Můžete spustit poskytnutý odvozený kód nebo použít poznámkové bloky Colab ke generování zvukových ukázek z vlastních textových výzev.
  8. Co je to Audio InPainting?
    Audio InPainting je proces vyplnění chybějících částí zvukového klipu, který zajišťuje plynulé přechody a udržuje celkovou integritu zvuku.
  9. Mohu použít model pro komerční účely?
    Práva na používání závisí na licenci modelu; přečtěte si prosím licenci úložiště a doprovodnou dokumentaci pro pokyny pro komerční použití.
  10. Jak mohu přispět na projekt Auffusion?
    Můžete přispět nahlášením problémů, navrhováním vylepšení nebo odesláním požadavků na stažení prostřednictvím úložiště GitHub projektu.