CogView3-chinese text-to-image El modelo no está mal
Los últimos avances en la generación de texto a imagen se han basado en modelos de difusión, pero los modelos de una sola etapa se enfrentan a problemas de eficiencia computacional y refinamiento del detalle de la imagen. Para solucionar este problema, los autores proponen CogView3, un marco en cascada que mejora la difusión de texto a imagen creando primero imágenes de baja resolución y aplicando después la superresolución basada en relés. Con este enfoque se obtienen resultados competitivos de texto a imagen, al tiempo que...