Milio miwili ya risasi ikifuatiwa na ndege wakilia
Mbwa anabweka
Watu wakishangilia uwanjani huku wakipiga ngurumo na radi
Gundua hali ya juu Maandishi kwa Sauti, sauti-kwa-sauti, na Uchoraji wa Sauti mbinu zinazoendeshwa na usambaaji na mifano mikubwa ya lugha.
1 Urambazaji
- Auffusion: Kuongeza Nguvu ya Usambazaji na Miundo Kubwa ya Lugha kwa Uzalishaji wa Maandishi hadi Sauti.
- Auffusion: Kuongeza Nguvu ya Usambazaji na Miundo Kubwa ya Lugha kwa Uzalishaji wa Maandishi hadi Sauti.
2 Muhtasari wa Karatasi
Auffusion: Kuongeza Nguvu ya Usambazaji na Miundo Kubwa ya Lugha kwa Uzalishaji wa Maandishi hadi Sauti.
Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
1, Chuo Kikuu cha Posta na Mawasiliano cha Beijing, Beijing, Uchina
Karatasi kwenye ArXiv | Rekodi kwenye GitHub | Uso wa Kukumbatiana
2.1 Muhtasari
Maendeleo ya hivi majuzi katika miundo ya uenezaji na miundo mikubwa ya lugha (LLMs) yamekuza uga wa AIGC kwa kiasi kikubwa. Maandishi kwa Sauti (TTA), programu inayoendelea ya AIGC iliyoundwa kutengeneza sauti kutoka kwa maongozi ya lugha asilia, inavutia umakini unaoongezeka. Hata hivyo, tafiti zilizopo za TTA mara nyingi zinatatizika na ubora wa kizazi na upatanishi wa sauti-maandishi, hasa kwa maandishi changamano. Kwa kuchora msukumo kutoka kwa miundo ya hali ya juu ya uenezaji wa Maandishi-hadi-Picha (T2I), tunatanguliza Auffusion-mfumo wa TTA ambao hurekebisha mifumo ya muundo wa T2I kwa ajili ya utengenezaji wa sauti kwa kutumia nguvu asilia za uundaji na upatanishaji sahihi wa moduli mtambuka. Tathmini zenye malengo na bainifu zinaonyesha kuwa Uboreshaji unazidi mbinu za awali za TTA, hata wakati wa kutumia data chache na rasilimali za kukokotoa. Masomo ya kina ya uondoaji na taswira bunifu ya ramani zenye uzingatiaji mtambuka zinaonyesha zaidi upatanishi wake bora wa maandishi-sauti, na kunufaisha kazi zinazohusiana kama vile uhamishaji wa mtindo wa sauti, uchoraji na upotoshaji mwingine.
2.2 Kumbuka
- Auffusion huzalisha athari za sauti zenye masharti, usemi wa binadamu na muziki.
- Muundo fiche wa uenezaji (LDM) umefunzwa kwenye GPU moja ya A6000, kulingana na Usambazaji Imara kwa kutumia umakini mkubwa.
- Usawazishaji wake dhabiti wa sauti-maandishi huwezesha uhamishaji wa mtindo wa sauti unaoongozwa na maandishi, uchoraji, na urekebishaji wa uzani/ubadilishaji unaozingatia umakini.
2.3 Kielelezo cha 1: Muhtasari wa Usanifu wa Kuimarisha
Mchakato wa mafunzo na uelekezaji unahusisha mabadiliko ya kurudi na kurudi kati ya nafasi nne za vipengele: sauti, spectrogramu, pikseli, na nafasi fiche. Kumbuka kuwa U-Net imeanzishwa kwa kutumia maandishi-kwa-picha ya LDM iliyofunzwa awali.
3 Yaliyomo
- Uzalishaji wa Maandishi hadi Sauti
- Kizazi cha TTA kilicho na Mwongozo wa Maandishi wa ChatGPT
- Ulinganisho wa Matukio mengi
- Ulinganisho wa Ramani ya Makini
- Uhamisho wa Mtindo wa Sauti Unaoongozwa na Maandishi
- Uchoraji wa Sauti
- Uingizwaji unaotegemea umakini
- Makini-msingi Reweighting
- Maoni Mengine
- Maboresho ya Baadaye
- Maswali Yanayoulizwa Mara kwa Mara
4 Uzalishaji wa Maandishi hadi Sauti
4.1 Sampuli Fupi:
- Milio miwili ya risasi ikifuatiwa na ndege wanaolia / Mbwa anabweka / Watu wakishangilia uwanjani huku ngurumo na radi zikipiga
4.2 Udhibiti wa Mazingira wa Kusikika:
- Mwanamume anazungumza katika chumba kikubwa / Mwanaume anaongea katika chumba kidogo / Mwanaume anazungumza studio
4.3 Udhibiti wa Nyenzo:
- Kusaga nyanya kwenye meza ya mbao / Kukata nyama kwenye meza ya mbao / Kukata viazi kwenye meza ya chuma
4.4 Udhibiti wa sauti:
- Wimbi la sine kwa sauti ya chini / Wimbi la Sine na lami ya wastani / Wimbi la Sine lenye sauti ya juu
4.5 Udhibiti wa Maagizo ya Muda:
- Gari la mashindano linapita na kutoweka / Milio miwili ya risasi ikifuatiwa na ndege wakiruka huku wakipiga kelele/ Meza ya mbao ikigonga sauti ikifuatiwa na sauti ya kumwaga maji
4.6 Uzalishaji wa Lebo hadi Sauti:
- King'ora / Ngurumo / Oink
- Mlipuko / Makofi / Fart
- Chainsaw / Fataki / Kuku, jogoo
- Kizazi kisicho na Masharti: "Null"
Kizazi 5 cha TTA chenye Uhakika wa Maandishi wa ChatGPT
- Ndege wakiimba kwa utamu katika bustani inayochanua
- Kitten mewing kwa tahadhari
- Kichawi fairies kicheko akirejea kwa njia ya msitu Enchanted
- Minong'ono nyororo ya hadithi inayosimuliwa kabla ya kulala
- Tumbili anacheka kabla ya kugongwa kichwani na bomu kubwa la atomiki
- Penseli inayoandika kwenye daftari
- Kumwagika kwa maji kwenye bwawa
- Sarafu zikigongana kwenye benki ya nguruwe
- Mtoto anapiga miluzi kwenye studio
- Kengele ya kanisa ya mbali ikilia mchana
- Honi ya gari ikipiga honi katika trafiki
- Watoto wenye hasira wakivunja glasi kwa kufadhaika
- Tapureta ya kizamani ikipiga kelele
- Msichana anayepiga kelele kwa macho ya kichaa zaidi na mabaya
- Firimbi ya treni ikivuma kwa mbali
6 Ulinganisho wa Matukio mengi
Maelezo ya Maandishi dhidi ya Ground-Truth dhidi ya AudioGen dhidi ya AudioLDM dhidi ya AudioLDM2 dhidi ya Tango dhidi ya Auffusion
- Kengele inayolia kama saa ikipiga na mwanamume anazungumza kupitia spika ya televisheni nyuma na kufuatiwa na mlio wa kengele isiyosikika.
- Kuunguruma na kuvuma kwa injini huku mwanamume akiongea
- Mfululizo wa milio ya risasi na milio miwili ya risasi huku ndege ya jeti ikipaa na kufuatiwa na muziki laini unaosikika.
- Mwanamke anaongea, msichana anaongea, kupiga makofi, kelele za kulia hukatiza, ikifuatiwa na kicheko
- Mwanamume akiongea huku karatasi ikikunjamana na kufuatiwa na kupasuka kwa plastiki kisha choo kinatiririka
- Mvua hunyesha watu wakizungumza na kucheka huku nyuma
- Watu hutembea sana, hutulia, hutelezesha miguu yao, hutembea, husimama, na kuanza kutembea tena
7 Ulinganisho wa Ramani ya Makini
Ulinganisho ni pamoja na:
Auffusion-no-pretrain / Auffusion-w-clip / Auffusion-w-clap / Auffusion-w-flant5 / Tango.
8 Uhamisho wa Mtindo wa Sauti Unaoongozwa na Maandishi
Mifano:
- Kutoka kwa paka kupiga kelele hadi mbio za gari.
- Kutoka kwa milio ya ndege hadi king'ora cha gari la wagonjwa.
- Kutoka kwa mtoto kulia hadi paka meowing.
Maoni Mengine
- Tutashiriki msimbo wetu kwenye GitHub ili kufungua chanzo mafunzo na tathmini ya muundo wa utengenezaji sauti kwa ulinganisho rahisi.
- Tunathibitisha masuala ya hakimiliki yanayohusiana na data, kisha miundo iliyofunzwa mapema itatolewa.
Maboresho ya Baadaye
- Chapisha tovuti ya onyesho na kiungo cha arXiv.
- Chapisha Vituo vya ukaguzi vya Udhibiti na Udhibiti-Kamili.
- Ongeza uhamishaji wa mtindo unaoongozwa na maandishi.
- Ongeza kizazi cha sauti hadi sauti.
- Ongeza uchoraji wa sauti.
- Ongeza ubadilishaji wa maneno unaozingatia umakini na udhibiti wa uzani (prompt2prompt-based).
- Ongeza azimio bora la sauti.
- Unda programu ya wavuti ya Gradio inayojumuisha sauti-kwa-sauti, uchoraji, uhamishaji wa mitindo, na azimio bora zaidi.
- Ongeza usindikaji wa awali wa data na msimbo wa mafunzo.
Shukrani
Tovuti hii imeundwa kulingana na kazi iliyofanywa AudioLDM GitHub.
Maswali Yanayoulizwa Mara kwa Mara
- Auffusion ni nini?
Auffusion ni muundo wa kisasa wa uzalishaji wa maandishi hadi sauti ambao hutumia miundo ya uenezi na miundo mikubwa ya lugha ili kuunda sauti ya ubora wa juu kutoka kwa vidokezo vya maandishi. - Uzalishaji wa Maandishi hadi Sauti hufanyaje kazi?
Mfumo huu hubadilisha maelezo ya maandishi kuwa sauti kwa kupanga upachikaji wa maandishi katika nafasi za vipengele vya sauti kwa kutumia muundo uliofichika wa usambaaji, kuhakikisha uaminifu wa hali ya juu na upatanisho sahihi. - Je, ni sifa gani kuu za Auffusion?
Uboreshaji huauni uundaji wa Maandishi-hadi-Sauti, ubadilishaji wa sauti-hadi-sauti, upakaji rangi wa sauti, na uhamishaji wa mtindo wa sauti unaoongozwa na maandishi. - Usambazaji una jukumu gani katika mfano huu?
Miundo ya upanuzi husaidia katika kubadilisha hatua kwa hatua kelele nasibu hadi mawimbi madhubuti ya sauti kwa kufuata mchakato wa uenezaji wa kinyume unaoongozwa na ingizo za maandishi. - Je, mfano ni chanzo wazi?
Ndiyo, kanuni na vituo vya ukaguzi vya mfano vinakusudiwa kuwa na vyanzo huria, kuruhusu jumuiya ya watafiti kufikia na kuendeleza mradi. - Ni vifaa gani vinahitajika ili kuendesha Auffusion?
Mfano huo umefunzwa kwenye GPU moja ya A6000; hata hivyo, utendakazi unaweza kutofautiana kulingana na maunzi yako na usanidi mahususi. - Ninawezaje kujaribu kutoa sauti na Auffusion?
Unaweza kutumia msimbo wa uelekezaji uliotolewa au utumie daftari za Colab kutengeneza sampuli za sauti kutoka kwa vidokezo vyako mwenyewe. - Uchoraji Sauti ni nini?
Uchoraji Sauti ni mchakato wa kujaza sehemu zinazokosekana za klipu ya sauti, kuhakikisha mabadiliko yasiyo na mshono na kudumisha uadilifu wa jumla wa sauti. - Je, ninaweza kutumia modeli kwa madhumuni ya kibiashara?
Haki za matumizi hutegemea leseni ya modeli; tafadhali kagua leseni ya hazina na hati zinazoambatana na miongozo ya matumizi ya kibiashara. - Ninawezaje kuchangia mradi wa Auffusion?
Unaweza kuchangia kwa kuripoti masuala, kupendekeza maboresho, au kuwasilisha maombi ya kuvuta kupitia hazina ya mradi ya GitHub.