Progresele recente în generarea text-to-image au fost determinate de modelele de difuzie, dar modelele cu o singură etapă se confruntă cu provocări în ceea ce privește eficiența computațională și rafinarea detaliilor imaginii. Pentru a rezolva acest lucru, autorii propun CogView3, un cadru în cascadă care îmbunătățește difuzarea text-la-imagine prin crearea mai întâi de imagini cu rezoluție scăzută și apoi aplicând super-rezoluție bazată pe releu. Această abordare are ca rezultat rezultate competitive text-to-image, reducând în același timp foarte mult costurile de instruire și inferență. Rezultatele experimentale arată că CogView3 depășește modelul actual de difuzare text-to-image cu sursă deschisă de ultimă generație, SDXL, cu 77.0% în evaluările umane, iar varianta sa distilată atinge performanțe comparabile folosind doar 1/10 din timpul de inferență.
AI desenând din ce în ce mai mult volum, upgrade cuprinzător al efectului cogview-3 Plus
Note algoritmului geantă originală Note algoritmului sacului
27 septembrie 2024 10:01 Beijing
Prietenul meu de la Smart Spectrum mi-a spus că modelul lor recent Vincennes a fost repetat din nou și din nou, actualizat de la modelul cogview la cogview-3 Plus și de data aceasta este absolut de top.
După impresia mea, cogview este un produs al erei pre-mare model, înainte de nașterea LLM, modelele cogview reprezentate de SD l-au ucis, dar China pornește și urmărește târziu, adesea modelul chinez nu înțelege chinezii și face o mulțime de teren armonic.
De exemplu, „Squirrel Mandarin Fish”.

Imagini precum „Buddha sare peste perete

Imagini precum „Prăjituri calde cu carne de măgar

Poze ca Beer Duck

Tipul a spus, este foarte diferit de data asta, lasă-mă să-ți arăt o doamnă pe care am generat-o prima.

Într-adevăr, există un astfel de sentiment, de la detalii, loviturile de pensulă, percepția imaginii, sunt din ce în ce mai bune. caz spun adesea o mulțime de prostii, dar aplicarea specifică a efectului este modul în care, din toate dimensiunile diferitelor scenarii ale numeroaselor rezultate ale testelor să ia în considerare cu atenție.
Am zis, nu te lauda mai intai, am si un set de testare ancestral, de la scena, continutul, obiectivul, stilul, loviturile de pensula acopera multe unghiuri, lasa-ma sa torturez cateva.
Oil Painting Prompt: o pictură clasică în ulei care înfățișează o nobilă blondă într-o superbă rochie albastră în stilul unei picturi în ulei.
Imagine
Fotografie Prompt: un lac de munte senin în stilul alb-negru al lui Ansel Adams, cu lacul reflectând pădurea de pini din jur. Ceață de dimineață, dealuri ondulate în depărtare și lumină slabă a dimineții pe cer.

Solicitare acuarelă: un pisoi maro care doarme liniştit încovoiat cu blană moale pufoasă, foarte drăguţ, acuarelă.

Sketch Prompt: schiță detaliată în creion a unui tigru impunător, stând pe o câmpie ierboasă, cu pădure deasă și munți în fundal, fiecare linie musculară a animalului este gravată în detalii vii.

Crayon Prompt: Desenul unui copil cu creion al unei familii, o casă roșie înconjurată de o pajiște verde, soarele sus pe cer și patru figuri zâmbitoare stând în fața ușii, ținându-se de mână într-o manieră copilărească.

Prompt pentru carte cu imagini pentru copii: o pagină cu ilustrarea unei cărți ilustrate pentru copii a unui băiețel care stă pe lună cu o carte deschisă în mână, înconjurat de un cer plin de stele, cerul nopții dezvăluie căldură și seninătate. Poze
Stamp Design Prompt: Un model de ștampilă înfățișând un vultur vânând, cu un cer vast în fundal și aripile vulturului întinse într-o manieră maiestuoasă.
