Dva výstřely následované cvrlikáním ptáků
Pes štěká
Lidé jásají na stadionu, zatímco se valí hromy a blesky
Prozkoumejte nejmodernější technologie Text-to-Audio, audio-to-audioa Audio InPainting techniky poháněné difúzí a velkými jazykovými modely.
1 Navigace
- Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk
- Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk
2 Přehled papíru
Auffusion: Využití síly šíření a velkých jazykových modelů pro generování převodu textu na zvuk
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Pekingská univerzita pošt a telekomunikací, Peking, Čína
Článek o ArXiv | Kód na GitHubu | Objímání obličeje
2.1 Abstrakt
Nedávné pokroky v difúzních modelech a velkých jazykových modelech (LLM) významně posunuly oblast AIGC. Text-to-Audio (TTA), rozvíjející se aplikace AIGC navržená pro generování zvuku z podnětů přirozeného jazyka, přitahuje stále větší pozornost. Stávající studie TTA však často bojují s kvalitou generování a zarovnáním textu a zvuku, zejména u složitých textových vstupů. Inspiraci čerpáme z nejmodernějších modelů šíření textu na obrázek (T2I) a představujeme Auffusion – systém TTA, který přizpůsobuje modelové rámce T2I pro generování zvuku využitím přirozených generativních silných stránek a přesného mezimodálního zarovnání. Objektivní a subjektivní hodnocení ukazují, že Auffusion překonává předchozí přístupy TTA, a to i při použití omezených dat a výpočetních zdrojů. Komplexní ablační studie a inovativní mapové vizualizace s křížovou pozorností dále předvádějí jeho vynikající zarovnání textu a zvuku, což přináší výhody souvisejícím úkolům, jako je přenos zvukového stylu, malování a další manipulace.
2.2 Poznámka
- Auffusion generuje textově podmíněné zvukové efekty, lidskou řeč a hudbu.
- Model latentní difúze (LDM) je trénován na jediném GPU A6000 založeném na stabilní difúzi využívající křížovou pozornost.
- Jeho silné zarovnání textu a zvuku umožňuje textově řízený přenos stylu zvuku, malování a manipulace se změnou váhy/záměnou na základě pozornosti.
2.3 Obrázek 1: Přehled architektury Auffusion
Proces trénování a vyvozování zahrnuje transformace tam a zpět mezi čtyřmi prostorovými prvky: zvukem, spektrogramem, pixelem a latentním prostorem. Všimněte si, že U-Net je inicializován pomocí předem připraveného LDM pro převod textu na obrázek.
3 Obsah
- Generování textu na zvuk
- Generování TTA s textovou výzvou ChatGPT
- Porovnání více událostí
- Porovnání map křížové pozornosti
- Přenos zvukového stylu s textovým průvodcem
- Zvuková malba
- Výměna založená na pozornosti
- Převážení na základě pozornosti
- Další komentáře
- Budoucí vylepšení
- FAQ
4 Generování převodu textu na zvuk
4.1 Krátké ukázky:
- Dva výstřely následované cvrlikáním ptáků / Pes štěká / Lidé jásají na stadionu, zatímco se valí hromy a blesky
4.2 Ovládání akustického prostředí:
- Muž mluví v obrovské místnosti / Muž mluví v malé místnosti / Muž mluví ve studiu
4.3 Kontrola materiálu:
- Sekání rajčat na dřevěný stůl / Sekání masa na dřevěný stůl / Sekání brambor na kovový stůl
4.4 Ovládání výšky tónu:
- Sinusovka s nízkou výškou / Sinusová vlna se střední výškou / Sinusová vlna s vysokou výškou
4.5 Dočasná kontrola objednávky:
- Závodní auto projíždí a mizí / Dva výstřely následované ptáky odlétajícími za cvrlikání / Zvuk klepání dřevěného stolu následovaný zvukem tečení vody
4.6 Generování label-to-Audio:
- Siréna / Hrom / Oink
- Výbuch / Potlesk / Prd
- Motorová pila / Ohňostroje / Kuře, kohout
- Bezpodmínečná generace: "Nulové"
5 Generování TTA s textovou výzvou ChatGPT
- Ptáci zpívají sladce v rozkvetlé zahradě
- Kotě mňouká o pozornost
- Kouzelný smích víl se ozývá kouzelným lesem
- Jemný šepot vyprávění pohádky před spaním
- Opice se směje, než ji udeří do hlavy velká atomová bomba
- Tužka čmárající do poznámkového bloku
- Šplouchání vody v rybníku
- Mince cinkají v prasátku
- Dítě si píská ve studiu
- Vzdálený kostelní zvon odbíjel poledne
- V provozu troubí auto
- Rozzlobené děti rozbíjejí sklo ve frustraci
- Klakání staromódního psacího stroje
- Dívka křičící na ten nejdementnější a nejhnusnější pohled
- V dálce se ozvala píšťalka vlaku
6 Porovnání více událostí
Textové popisy vs. Ground-Truth vs. AudioGen vs. AudioLDM vs. AudioLDM2 vs. Tango vs. Auffusion
- Zvonek bijící jako hodiny tikají a muž mluví prostřednictvím televizního reproduktoru v pozadí a následuje tlumený zvonek
- Bzučení a hučení motoru s mluvícím mužem
- Série výstřelů z kulometů a dvou výstřelů, když proudové letadlo letí, následuje jemná hudba
- Žena mluví, dívka mluví, tleskání, skřehotání přerušuje, následuje smích
- Muž mluví, jako by se vrzal papír, následovalo vrzání plastu a pak splachování záchodu
- Déšť padá, když lidé mluví a smějí se v pozadí
- Lidé chodí ztěžka, zastavují se, kloužou nohama, jdou, zastaví se a znovu začnou chodit
7 Cross Attention Map Comparison
Srovnání zahrnují:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flat5 / Tango.
8 Přenos zvukového stylu s textovým průvodcem
Příklady:
- Od kočičího křiku až po automobilové závody.
- Od ptačího cvrlikání po sirénu sanitky.
- Od dětského pláče po kočičí mňoukání.
Další komentáře
- Náš kód budeme sdílet na GitHubu, abychom s otevřeným zdrojovým kódem procvičili a vyhodnotili model generování zvuku pro snazší porovnání.
- Potvrzujeme problémy s autorským právem související s daty, po kterých budou předtrénované modely uvolněny.
Budoucí vylepšení
- Zveřejněte demo webovou stránku a odkaz na arXiv.
- Publikování kontrolních bodů Auffusion a Auffusion-Full.
- Přidejte textově řízený přenos stylu.
- Přidejte generování zvuku do zvuku.
- Přidejte zvukovou malbu.
- Přidejte záměnu slov na základě pozornosti a kontrolu váhy (založené na prompt2prompt).
- Přidejte zvuk ve vysokém rozlišení.
- Vytvořte webovou aplikaci Gradio integrující audio-a-zvuk, malování, přenos stylů a super-rozlišení.
- Přidejte předzpracování dat a tréninkový kód.
Potvrzení
Tento web je vytvořen na základě práce na AudioLDM GitHub.
FAQ
- Co je Auffusion?
Auffusion je nejmodernější model generování textu na zvuk, který využívá modely difúze a velké jazykové modely k vytvoření vysoce kvalitního zvuku z textových výzev. - Jak funguje generování textu na zvuk?
Systém převádí textové popisy na zvuk mapováním vložených textů do prostorů zvukových funkcí pomocí modelu latentní difúze, což zajišťuje vysokou věrnost a přesné zarovnání. - Jaké jsou hlavní rysy Auffusion?
Auffusion podporuje generování textu na zvuk, transformaci zvuku na zvuk, vykreslování zvuku a přenos stylů zvuku řízený textem. - Jakou roli hraje v tomto modelu difúze?
Difúzní modely pomáhají při postupné transformaci náhodného šumu na koherentní zvukové signály sledováním procesu zpětné difúze řízeného textovými vstupy. - Je model open-source?
Ano, kontrolní body kódu a modelu jsou zamýšleny jako open-source, což výzkumné komunitě umožňuje přístup k projektu a budování na něm. - Jaký hardware je potřeba ke spuštění Auffusion?
Model byl trénován na jediném GPU A6000; výkon se však může lišit v závislosti na vašem hardwaru a konkrétním nastavení. - Jak mohu zkusit generovat zvuk pomocí Auffusion?
Můžete spustit poskytnutý odvozený kód nebo použít poznámkové bloky Colab ke generování zvukových ukázek z vlastních textových výzev. - Co je to Audio InPainting?
Audio InPainting je proces vyplnění chybějících částí zvukového klipu, který zajišťuje plynulé přechody a udržuje celkovou integritu zvuku. - Mohu použít model pro komerční účely?
Práva na používání závisí na licenci modelu; přečtěte si prosím licenci úložiště a doprovodnou dokumentaci pro pokyny pro komerční použití. - Jak mohu přispět na projekt Auffusion?
Můžete přispět nahlášením problémů, navrhováním vylepšení nebo odesláním požadavků na stažení prostřednictvím úložiště GitHub projektu.