De senaste framstegen inom text-till-bild-generering har drivits av diffusionsmodeller, men enstegsmodeller står inför utmaningar när det gäller beräkningseffektivitet och förfining av bilddetaljer. För att ta itu med detta föreslår författarna CogView3, ett kaskadramverk som förbättrar text-till-bild-diffusion genom att först skapa lågupplösta bilder och sedan tillämpa reläbaserad superupplösning. Detta tillvägagångssätt resulterar i konkurrenskraftiga text-till-bild-utgångar samtidigt som utbildnings- och inferenskostnaderna minskas kraftigt. Experimentella resultat visar att CogView3 överträffar den nuvarande state-of-the-art open-source text-till-bild-diffusionsmodellen, SDXL, med 77.0% i mänskliga utvärderingar, och dess destillerade variant uppnår jämförbar prestanda samtidigt som den bara använder 1/10 av inferenstiden.
AI-ritning mer och mer volym, cogview-3 Plus effekt omfattande uppgradering
Original Väska Algoritm Anteckningar Väska Algoritm Anteckningar
27 september 2024 10:01 Peking
Min kompis på Smart Spectrum berättade för mig att deras senaste Vincennes-modell har upprepats om och om igen, uppgraderad från cogview-modell till cogview-3 Plus, och den här gången är den helt toppklass.
Enligt mitt intryck är cogview en produkt av den stora modelltiden, före LLM: s födelse, cogview-modeller representerade av SD har dödat det, men Kina börjar och följer upp sent, ofta förstår den kinesiska modellen inte kineserna och gör mycket harmonisk terräng.
Till exempel, "Ekorre Mandarin Fisk
Bilder såsom "Buddha hoppar över muren
Bilder såsom "Hotcakes med åsnekött
Bilder som Beer Duck
Dude sa, det är verkligen annorlunda den här gången, låt mig visa dig en dam jag genererade först.
Det finns faktiskt den typen av känsla, från detaljerna, penseldrag, bilduppfattningen, blir bättre och bättre. fallet säger ofta mycket nonsens, men den specifika tillämpningen av effekten är hur, från alla dimensioner av de olika scenarierna i de många testresultaten att noggrant överväga.
Jag sa, skryt inte först, jag har också en förfäders testuppsättning, från scenen, innehåll, lins, stil, penseldrag täcker många vinklar, låt mig tortera några.
Oljemålning Uppmaning: en klassisk oljemålning som visar en blond adelsdam i en underbar blå klänning i stil med en oljemålning.
Bild
Fotografiuppmaning: en fridfull bergssjö i Ansel Adams svartvita stil, med sjön som speglar den omgivande tallskogen. Morgondimma, böljande kullar i fjärran och svagt morgonljus på himlen.
Frågeställning för akvarell: En brun kattunge sover lugnt ihopkrupen med mjuk fluffig päls, mycket söt, akvarell.
Skissuppdrag: detaljerad blyertsskiss av en imponerande tiger, stående på en grässlätt, med tät skog och berg i bakgrunden, varje muskellinje hos djuret är etsad i levande detalj.
Frågeställning med kritor : Ett barns kritteckning av en familj, ett rött hus omgivet av en grön äng, solen högt på himlen och fyra leende figurer som står framför dörren och håller varandra i handen på ett barnsligt sätt.
Bilderbokstext för barn: en sida med bilderboksillustrationer för barn av en liten pojke som sitter på månen med en öppen bok i handen, omgiven av en himmel full av stjärnor, natthimlen avslöjar värme och lugn. Bilderna
Förslag till frimärksdesign: Ett frimärksmotiv som föreställer en örn som jagar, med en vidsträckt himmel i bakgrunden och örnens vingar majestätiskt utbredda.