Auffusion: model nové generace Text-to-Audio Generation

Dva výstřely následované cvrlikáním ptáků

Pes štěká

Lidé jásají na stadionu, zatímco se valí hromy a blesky

Prozkoumejte nejmodernější technologie Text-to-Audio, audio-to-audioa Audio InPainting techniky poháněné difúzí a velkými jazykovými modely.

1 Navigace

Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk
Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk

2 Přehled papíru

Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Pekingská univerzita pošt a telekomunikací, Peking, Čína

Článek o ArXiv | Kód na GitHubu | Objímání obličeje

2.1 Abstrakt

Nedávné pokroky v difúzních modelech a velkých jazykových modelech (LLM) významně posunuly oblast AIGC. Text-to-Audio (TTA), rozvíjející se aplikace AIGC navržená pro generování zvuku z podnětů přirozeného jazyka, přitahuje stále větší pozornost. Stávající studie TTA však často bojují s kvalitou generování a zarovnáním textu a zvuku, zejména u složitých textových vstupů. Inspiraci čerpáme z nejmodernějších modelů šíření textu na obrázek (T2I) a představujeme Auffusion – systém TTA, který přizpůsobuje modelové rámce T2I pro generování zvuku využitím přirozených generativních silných stránek a přesného mezimodálního zarovnání. Objektivní a subjektivní hodnocení ukazují, že Auffusion překonává předchozí přístupy TTA, a to i při použití omezených dat a výpočetních zdrojů. Komplexní ablační studie a inovativní mapové vizualizace s křížovou pozorností dále předvádějí jeho vynikající zarovnání textu a zvuku, což přináší výhody souvisejícím úkolům, jako je přenos zvukového stylu, malování a další manipulace.

2.2 Poznámka

Auffusion generuje textově podmíněné zvukové efekty, lidskou řeč a hudbu.
Model latentní difúze (LDM) je trénován na jediném GPU A6000 založeném na stabilní difúzi využívající křížovou pozornost.
Jeho silné zarovnání textu a zvuku umožňuje textově řízený přenos stylu zvuku, malování a manipulace se změnou váhy/záměnou na základě pozornosti.

2.3 Obrázek 1: Přehled architektury Auffusion

Proces trénování a vyvozování zahrnuje transformace tam a zpět mezi čtyřmi prostorovými prvky: zvukem, spektrogramem, pixelem a latentním prostorem. Všimněte si, že U-Net je inicializován pomocí předem připraveného LDM pro převod textu na obrázek.

3 Obsah

4 Generování převodu textu na zvuk

4.1 Krátké ukázky:

Dva výstřely následované cvrlikáním ptáků / Pes štěká / Lidé jásají na stadionu, zatímco se valí hromy a blesky

4.2 Ovládání akustického prostředí:

Muž mluví v obrovské místnosti / Muž mluví v malé místnosti / Muž mluví ve studiu

4.3 Kontrola materiálu:

Sekání rajčat na dřevěný stůl / Sekání masa na dřevěný stůl / Sekání brambor na kovový stůl

4.4 Ovládání výšky tónu:

Sinusovka s nízkou výškou / Sinusová vlna se střední výškou / Sinusová vlna s vysokou výškou

4.5 Dočasná kontrola objednávky:

Závodní auto projíždí a mizí / Dva výstřely následované ptáky odlétajícími za cvrlikání / Zvuk klepání dřevěného stolu následovaný zvukem tečení vody

4.6 Generování label-to-Audio:

Siréna / Hrom / Oink
Výbuch / Potlesk / Prd
Motorová pila / Ohňostroje / Kuře, kohout
Bezpodmínečná generace: "Nulové"

5 Generování TTA s textovou výzvou ChatGPT

Ptáci zpívají sladce v rozkvetlé zahradě
Kotě mňouká o pozornost
Kouzelný smích víl se ozývá kouzelným lesem
Jemný šepot vyprávění pohádky před spaním
Opice se směje, než ji udeří do hlavy velká atomová bomba
Tužka čmárající do poznámkového bloku
Šplouchání vody v rybníku
Mince cinkají v prasátku
Dítě si píská ve studiu
Vzdálený kostelní zvon odbíjel poledne
V provozu troubí auto
Rozzlobené děti rozbíjejí sklo ve frustraci
Klakání staromódního psacího stroje
Dívka křičící na ten nejdementnější a nejhnusnější pohled
V dálce se ozvala píšťalka vlaku

6 Porovnání více událostí

Textové popisy vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion

Zvonek bijící jako hodiny tikají a muž mluví prostřednictvím televizního reproduktoru v pozadí a následuje tlumený zvonek
Bzučení a hučení motoru s mluvícím mužem
Série výstřelů z kulometů a dvou výstřelů, když proudové letadlo letí, následuje jemná hudba
Žena mluví, dívka mluví, tleskání, skřehotání přerušuje, následuje smích
Muž mluví, jako by se vrzal papír, následovalo vrzání plastu a pak splachování záchodu
Déšť padá, když lidé mluví a smějí se v pozadí
Lidé chodí ztěžka, zastavují se, kloužou nohama, jdou, zastaví se a znovu začnou chodit

7 Cross Attention Map Comparison

Srovnání zahrnují:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flat5 / Tango.

8 Přenos zvukového stylu s textovým průvodcem

Příklady:

Od kočičího křiku až po automobilové závody.
Od ptačího cvrlikání po sirénu sanitky.
Od dětského pláče po kočičí mňoukání.

Další komentáře

Náš kód budeme sdílet na GitHubu, abychom s otevřeným zdrojovým kódem procvičili a vyhodnotili model generování zvuku pro snazší porovnání.
Potvrzujeme problémy s autorským právem související s daty, po kterých budou předtrénované modely uvolněny.

Budoucí vylepšení

Zveřejněte demo webovou stránku a odkaz na arXiv.
Publikování kontrolních bodů Auffusion a Auffusion-Full.
Přidejte textově řízený přenos stylu.
Přidejte generování zvuku do zvuku.
Přidejte zvukovou malbu.
Přidejte záměnu slov na základě pozornosti a kontrolu váhy (založené na prompt2prompt).
Přidejte zvuk ve vysokém rozlišení.
Vytvořte webovou aplikaci Gradio integrující audio-a-zvuk, malování, přenos stylů a super-rozlišení.
Přidejte předzpracování dat a tréninkový kód.

Potvrzení

Tento web je vytvořen na základě práce na AudioLDM GitHub.

FAQ

Co je Auffusion?
Auffusion je nejmodernější model generování textu na zvuk, který využívá modely difúze a velké jazykové modely k vytvoření vysoce kvalitního zvuku z textových výzev.
Jak funguje generování textu na zvuk?
Systém převádí textové popisy na zvuk mapováním vložených textů do prostorů zvukových funkcí pomocí modelu latentní difúze, což zajišťuje vysokou věrnost a přesné zarovnání.
Jaké jsou hlavní rysy Auffusion?
Auffusion podporuje generování textu na zvuk, transformaci zvuku na zvuk, vykreslování zvuku a přenos stylů zvuku řízený textem.
Jakou roli hraje v tomto modelu difúze?
Difúzní modely pomáhají při postupné transformaci náhodného šumu na koherentní zvukové signály sledováním procesu zpětné difúze řízeného textovými vstupy.
Je model open-source?
Ano, kontrolní body kódu a modelu jsou zamýšleny jako open-source, což výzkumné komunitě umožňuje přístup k projektu a budování na něm.
Jaký hardware je potřeba ke spuštění Auffusion?
Model byl trénován na jediném GPU A6000; výkon se však může lišit v závislosti na vašem hardwaru a konkrétním nastavení.
Jak mohu zkusit generovat zvuk pomocí Auffusion?
Můžete spustit poskytnutý odvozený kód nebo použít poznámkové bloky Colab ke generování zvukových ukázek z vlastních textových výzev.
Co je to Audio InPainting?
Audio InPainting je proces vyplnění chybějících částí zvukového klipu, který zajišťuje plynulé přechody a udržuje celkovou integritu zvuku.
Mohu použít model pro komerční účely?
Práva na používání závisí na licenci modelu; přečtěte si prosím licenci úložiště a doprovodnou dokumentaci pro pokyny pro komerční použití.
Jak mohu přispět na projekt Auffusion?
Můžete přispět nahlášením problémů, navrhováním vylepšení nebo odesláním požadavků na stažení prostřednictvím úložiště GitHub projektu.