Le modèle texte-image chinois CogView3 n'est pas mauvais
Les progrès récents dans la génération de texte en image ont été guidés par des modèles de diffusion, mais les modèles à une seule étape sont confrontés à des défis en termes d'efficacité de calcul et de raffinement des détails de l'image. Pour résoudre ce problème, les auteurs proposent CogView3, un cadre en cascade qui améliore la diffusion de texte en image en créant d'abord des images à basse résolution, puis en appliquant une super-résolution basée sur le relais. Cette approche permet d'obtenir des résultats de texte en image compétitifs tout en…