Los últimos avances en la generación de texto a imagen se han basado en modelos de difusión, pero los modelos de una sola etapa se enfrentan a problemas de eficiencia computacional y refinamiento del detalle de la imagen. Para solucionar este problema, los autores proponen CogView3, una estructura en cascada que mejora la difusión texto-imagen creando primero imágenes de baja resolución y aplicando después la superresolución basada en relés. Con este método se obtienen resultados competitivos de texto a imagen y se reducen enormemente los costes de formación e inferencia. Los resultados experimentales muestran que CogView3 supera al modelo de difusión texto-imagen de código abierto más avanzado, SDXL, en 77,0% en evaluaciones humanas, y su variante destilada logra un rendimiento comparable utilizando sólo 1/10 del tiempo de inferencia.

AI dibuja más y más volumen, cogview-3 Plus efecto actualización integral
Bolsa original Algoritmo Notas Bolsa Algoritmo Notas
27 de septiembre de 2024 10:01 Pekín
Mi colega de Smart Spectrum me dijo que su reciente modelo Vincennes ha sido iterado una y otra vez, actualizado de modelo cogview a cogview-3 Plus, y esta vez es absolutamente de primera.

En mi impresión, cogview es un producto de la era pre-grande modelo, antes del nacimiento de LLM, cogview modelos representados por SD han estado matando, pero el inicio de China y seguir tarde, a menudo el modelo chino no entiende los chinos, y hacer un montón de terreno armónico.

Por ejemplo, "Pez mandarín ardilla

Cuadros como "Buda salta el muro

Imágenes como 'Donkey Meat Hotcakes


Fotos como Pato Cervecero


El tipo dijo, es realmente diferente esta vez, déjame mostrarte una dama que generé primero.


De hecho, existe ese tipo de sensación, a partir de los detalles, pinceladas, la percepción de la imagen, son cada vez mejores y mejores. caso a menudo dicen un montón de tonterías, pero la aplicación específica del efecto es cómo, desde todas las dimensiones de los diversos escenarios de los numerosos resultados de las pruebas a considerar cuidadosamente.

He dicho, no presumir primero, también tengo un conjunto de prueba ancestral, de la escena, el contenido, la lente, el estilo, pinceladas cubren muchos ángulos, permítanme torturar a algunos.

Prompt de pintura al óleo: una pintura al óleo clásica que representa a una noble rubia con un precioso vestido azul al estilo de una pintura al óleo.
Fotografía

Consigna fotográfica: un sereno lago de montaña en el estilo en blanco y negro de Ansel Adams, con el lago reflejando el bosque de pinos que lo rodea. Niebla matinal, colinas ondulantes a lo lejos y una tenue luz matinal en el cielo.


Acuarela: Un gatito marrón durmiendo tranquilamente acurrucado con suave pelaje esponjoso, muy mono, acuarela.



Sketch Prompt: boceto detallado a lápiz de un imponente tigre, de pie en una llanura cubierta de hierba, con un denso bosque y montañas al fondo, cada línea muscular del animal está grabada con vívido detalle.


Crayola : Dibujo infantil a lápiz de color de una familia, una casa roja rodeada de un prado verde, el sol en lo alto del cielo y cuatro figuras sonrientes de pie delante de la puerta, cogidas de la mano de forma infantil.




Children's Picture Book Prompt: una página de ilustración de libro ilustrado infantil de un niño sentado en la luna con un libro abierto en la mano, rodeado de un cielo lleno de estrellas, el cielo nocturno revela calidez y serenidad. Imágenes
Diseño de sello: Un diseño de sello que representa a un águila cazando, con un vasto cielo de fondo y las alas del águila desplegadas de forma majestuosa.