CogView3 - o modelo texto-imagem chinês não é mau
Os recentes avanços na geração de texto-imagem foram impulsionados por modelos de difusão, mas os modelos de fase única enfrentam desafios em termos de eficiência computacional e refinamento dos detalhes da imagem. Para resolver este problema, os autores propõem o CogView3, uma estrutura em cascata que melhora a difusão de texto para imagem, criando primeiro imagens de baixa resolução e aplicando depois a super-resolução baseada em relés. Esta abordagem resulta em resultados competitivos de texto-imagem enquanto...