I recenti progressi nella generazione di testo in immagini sono stati guidati da modelli di diffusione, ma i modelli a stadio singolo affrontano sfide nell'efficienza computazionale e nel perfezionamento dei dettagli delle immagini. Per risolvere questo problema, gli autori propongono CogView3, un framework a cascata che migliora la diffusione di testo in immagini creando prima immagini a bassa risoluzione e quindi applicando una super risoluzione basata su relay. Questo approccio si traduce in output testo in immagini competitivi riducendo notevolmente i costi di formazione e inferenza. I risultati sperimentali mostrano che CogView3 supera l'attuale modello di diffusione di testo in immagini open source all'avanguardia, SDXL, di 77,0% nelle valutazioni umane e la sua variante distillata raggiunge prestazioni comparabili utilizzando solo 1/10 del tempo di inferenza.

L'intelligenza artificiale disegna sempre più volume, l'effetto di Cogview-3 Plus è un aggiornamento completo
Note sull'algoritmo originale del sacchetto Note sull'algoritmo del sacchetto
27 settembre 2024 10:01 Pechino
Il mio amico della Smart Spectrum mi ha detto che il loro recente modello Vincennes è stato rielaborato più volte, passando dal modello Cogview al Cogview-3 Plus, e questa volta è assolutamente il massimo.

A mio avviso, Cogview è un prodotto dell'era pre-large model, prima della nascita di LLM; i modelli Cogview rappresentati da SD hanno avuto un grande successo, ma la Cina ha iniziato e continuato tardi, spesso il modello cinese non capisce il cinese e crea un sacco di terreno armonico.

Ad esempio, 'Pesce mandarino scoiattolo

Immagini come "Buddha salta oltre il muro"

Immagini come "Pancake di carne d'asino"


Immagini come Beer Duck


Il tizio ha detto: "Questa volta è davvero diverso, lascia che ti mostri una donna che ho generato per prima".


In effetti, c'è quel tipo di sensazione, dai dettagli, dalle pennellate, dalla percezione dell'immagine, che stanno migliorando sempre di più. Spesso si dice un sacco di sciocchezze, ma l'applicazione specifica dell'effetto è come, da tutte le dimensioni dei vari scenari dei numerosi risultati dei test da considerare attentamente.

Ho detto, non vantarti subito, ho anche un set di test ancestrali, dalla scena, al contenuto, all'obiettivo, allo stile, le pennellate coprono molti angoli, lasciami torturarne alcuni.

Suggerimento per la pittura a olio: un classico dipinto a olio raffigurante una nobildonna bionda in uno splendido abito blu, nello stile della pittura a olio.
Immagine

Fotografia Prompt: un sereno lago di montagna nello stile in bianco e nero di Ansel Adams, con il lago che riflette la foresta di pini circostante. Nebbia mattutina, dolci colline in lontananza e debole luce mattutina nel cielo.


Disegno ad acquerello: un gattino marrone che dorme tranquillamente rannicchiato nella sua soffice pelliccia, molto carino, acquerello.



Suggerimento per lo schizzo: schizzo dettagliato a matita di un'imponente tigre, in piedi su una pianura erbosa, con una fitta foresta e montagne sullo sfondo; ogni linea muscolare dell'animale è impressa nei minimi dettagli.


Disegno a pastello: disegno fatto da un bambino a pastello che raffigura una famiglia, una casa rossa circondata da un prato verde, il sole alto nel cielo e quattro figure sorridenti in piedi davanti alla porta, che si tengono per mano in modo infantile.




Suggerimento per un libro illustrato per bambini: una pagina di un'illustrazione di un libro illustrato per bambini di un bambino seduto sulla luna con un libro aperto in mano, circondato da un cielo pieno di stelle, il cielo notturno rivela calore e serenità. Immagini
Suggerimento per la progettazione del francobollo: un disegno di francobollo raffigurante un'aquila a caccia, con un vasto cielo sullo sfondo e le ali dell'aquila spiegate in modo maestoso.