Os recentes avanços na geração de texto-imagem têm sido impulsionados por modelos de difusão, mas os modelos de fase única enfrentam desafios em termos de eficiência computacional e refinamento dos detalhes da imagem. Para resolver este problema, os autores propõem o CogView3, uma estrutura em cascata que melhora a difusão de texto para imagem, criando primeiro imagens de baixa resolução e aplicando depois a super-resolução baseada em relés. Esta abordagem resulta em resultados texto-imagem competitivos, reduzindo significativamente os custos de formação e inferência. Os resultados experimentais mostram que o CogView3 supera o atual modelo de difusão de texto-imagem de código aberto de última geração, SDXL, em 77,0% em avaliações humanas, e a sua variante destilada atinge um desempenho comparável utilizando apenas 1/10 do tempo de inferência.

Desenho de IA cada vez mais volumoso, atualização completa do efeito cogview-3 Plus
Notas do Algoritmo do Saco Original Notas do Algoritmo do Saco
27 de setembro de 2024 10:01 Pequim
O meu amigo da Smart Spectrum disse-me que o seu recente modelo Vincennes foi repetidamente atualizado, passando do modelo cogview para o cogview-3 Plus, e que desta vez é absolutamente excelente.

Na minha opinião, o cogview é um produto da era pré-grande modelo, antes do nascimento do LLM, os modelos de cogview representados pelo SD têm vindo a arrasar, mas a China começa e segue tarde, muitas vezes o modelo chinês não compreende os chineses e cria muito terreno harmónico.

Por exemplo, "Esquilo Mandarim Peixe

Imagens como "Buda salta o muro

Imagens como "Bolinhos de carne de burro


Imagens de Beer Duck


O meu amigo disse: desta vez é muito diferente, deixa-me mostrar-te uma senhora que gerei primeiro.


De facto, há uma sensação de que os detalhes, as pinceladas, a perceção da imagem, estão cada vez melhores.

Eu disse, não se gabem primeiro, também tenho um conjunto de testes ancestrais, desde a cena, o conteúdo, a objetiva, o estilo, as pinceladas cobrem muitos ângulos, deixem-me torturar alguns.

Pintura a óleo Sugestão: uma pintura a óleo clássica que representa uma nobre loira com um lindo vestido azul, ao estilo de uma pintura a óleo.
Imagem

Sugestão de fotografia: um sereno lago de montanha ao estilo de Ansel Adams, a preto e branco, com o lago a refletir o pinhal circundante. Nevoeiro matinal, colinas ondulantes ao longe e uma ténue luz matinal no céu.


Sugestão para aguarela: Um gatinho castanho a dormir tranquilamente enrolado com um pelo macio e fofo, muito giro, aguarela.



Esboço: esboço detalhado a lápis de um tigre imponente, de pé numa planície relvada, com uma floresta densa e montanhas ao fundo, todas as linhas musculares do animal estão gravadas em pormenores vívidos.


Desenho a lápis de cor : Um desenho infantil a lápis de cera de uma família, uma casa vermelha rodeada por um prado verde, o sol alto no céu e quatro figuras sorridentes em frente à porta, de mãos dadas de forma infantil.




Sugestão de tema para um livro ilustrado para crianças: uma página de ilustração de um livro ilustrado para crianças de um rapazinho sentado na lua com um livro aberto na mão, rodeado por um céu cheio de estrelas, o céu noturno revela calor e serenidade. Imagens
Proposta de desenho de um selo: Um desenho de um selo que represente uma águia a caçar, com um vasto céu como pano de fundo e as asas da águia abertas de forma majestosa.