Les progrès récents dans le domaine de la génération de texte à partir d'images ont été réalisés grâce à des modèles de diffusion, mais les modèles à une seule étape sont confrontés à des problèmes d'efficacité de calcul et de raffinement des détails de l'image. Pour y remédier, les auteurs proposent CogView3, un cadre en cascade qui améliore la diffusion texte-image en créant d'abord des images à faible résolution, puis en appliquant une super-résolution basée sur les relais. Cette approche permet d'obtenir des résultats texte-image compétitifs tout en réduisant considérablement les coûts de formation et d'inférence. Les résultats expérimentaux montrent que CogView3 surpasse le modèle de diffusion texte-image open-source actuel, SDXL, de 77,0% dans les évaluations humaines, et que sa variante distillée atteint des performances comparables tout en utilisant seulement 1/10 du temps d'inférence.

AI drawing more and more volume, cogview-3 Plus effect comprehensive upgrade
Sac original Algorithme Notes Sac Algorithme Notes
27 septembre 2024 10:01 Pékin
Mon ami chez Smart Spectrum m'a dit que leur récent modèle Vincennes a été itéré encore et encore, mis à niveau du modèle cogview au modèle cogview-3 Plus, et cette fois-ci il est absolument excellent.

Selon moi, le cogview est un produit de l'ère pré-large modèle, avant la naissance du LLM, les modèles de cogview représentés par SD ont fait des ravages, mais la Chine a commencé et suivi tardivement, souvent le modèle chinois ne comprend pas le chinois, et fait beaucoup de terrain harmonique.

Par exemple, "Poisson mandarin écureuil".

Des images telles que "Bouddha saute par-dessus le mur".

Des images telles que "Gâteaux à la viande d'âne".


Photos comme Beer Duck


Le mec m'a dit, c'est vraiment différent cette fois, laisse-moi te montrer une femme que j'ai générée en premier.


En effet, il y a ce genre de sentiment, à partir des détails, des coups de pinceau, la perception de l'image, sont de mieux en mieux. cas souvent dire beaucoup de non-sens, mais l'application spécifique de l'effet est comment, à partir de toutes les dimensions des différents scénarios des nombreux résultats de test à examiner attentivement.

J'ai dit, ne vous vantez pas d'abord, j'ai aussi une série de tests ancestraux, de la scène, du contenu, de l'objectif, du style, des coups de pinceau couvrant de nombreux angles, laissez-moi en torturer quelques-uns.

Invitation à la peinture à l'huile : une peinture à l'huile classique représentant une femme noble blonde dans une magnifique robe bleue dans le style d'une peinture à l'huile.
Photo

Invitation à la photographie : un lac de montagne serein dans le style noir et blanc d'Ansel Adams, avec le lac reflétant la forêt de pins environnante. Brouillard matinal, collines ondulantes au loin et faible lumière matinale dans le ciel.


Promesse d'aquarelle : Un chaton brun qui dort tranquillement, recroquevillé sur lui-même, avec une fourrure douce et duveteuse, très mignon, aquarelle.



Promesse de croquis : croquis détaillé au crayon d'un tigre imposant, debout sur une plaine herbeuse, avec une forêt dense et des montagnes en arrière-plan, chaque ligne musculaire de l'animal est gravée dans des détails vifs.


Invitation au crayon de couleur : Un dessin d'enfant aux crayons de couleur représentant une famille, une maison rouge entourée d'une prairie verte, le soleil haut dans le ciel et quatre personnages souriants debout devant la porte, se tenant par la main d'une manière enfantine.




Promesse de livre d'images pour enfants : une page d'illustration de livre d'images pour enfants représentant un petit garçon assis sur la lune, un livre ouvert à la main, entouré d'un ciel plein d'étoiles, le ciel nocturne révèle chaleur et sérénité. Images
Invitation à dessiner un timbre : Un timbre représentant un aigle en train de chasser, avec un vaste ciel en arrière-plan et les ailes de l'aigle déployées de manière majestueuse.