Модель преобразования текста в изображение

CogView3-китайский текст в изображение Модель неплохая

Недавние достижения в генерации текста в изображение были обусловлены моделями диффузии, но одноступенчатые модели сталкиваются с проблемами вычислительной эффективности и детализации изображения. Для решения этой проблемы авторы предлагают CogView3, каскадную структуру, которая улучшает диффузию текста в изображение, сначала создавая изображения с низким разрешением, а затем применяя сверхразрешение на основе реле. Этот подход приводит к конкурентоспособным результатам преобразования текста в изображение, в то время как…