CogView3-modello testo-immagine cinese non è male

I recenti progressi nella generazione di testo-immagine sono stati guidati dai modelli di diffusione, ma i modelli a fase singola devono affrontare problemi di efficienza computazionale e di raffinatezza dei dettagli dell'immagine. Per risolvere questo problema, gli autori propongono CogView3, una struttura a cascata che migliora la diffusione da testo a immagine creando prima immagini a bassa risoluzione e poi applicando una super-risoluzione basata su relè. Questo approccio consente di ottenere risultati competitivi da testo a immagine...