Последние достижения в области генерации текста в изображение были обусловлены моделями диффузии, но одноэтапные модели сталкиваются с проблемами вычислительной эффективности и уточнения деталей изображения. Для решения этой проблемы авторы предлагают CogView3 - каскадную систему, которая улучшает диффузию текста в изображение, сначала создавая изображения с низким разрешением, а затем применяя сверхразрешение на основе ретрансляции. Такой подход позволяет получить конкурентоспособные результаты преобразования текста в изображение, при этом значительно снижая затраты на обучение и выводы. Результаты экспериментов показывают, что CogView3 превосходит текущую современную модель диффузии текста в изображение с открытым исходным кодом, SDXL, на 77,0% в человеческих оценках, а ее дистиллированный вариант достигает сопоставимой производительности, используя всего 1/10 от времени вывода.
AI рисует все больше и больше объема, cogview-3 Plus эффект комплексного обновления
Оригинальные заметки об алгоритме мешка Заметки об алгоритме мешка
27 сентября 2024 10:01 Пекин
Мой приятель из Smart Spectrum рассказал мне, что их недавняя модель Vincennes прошла множество итераций, была усовершенствована от модели cogview до cogview-3 Plus, и на этот раз она абсолютно первоклассная.
По моему впечатлению, cogview - это продукт эпохи до больших моделей, до рождения LLM, модели cogview, представленные SD, убивали его, но китайцы начали и продолжили поздно, часто китайские модели не понимают китайцев, и делают много гармоничных рельефов.
Например, "Белка-мандариновая рыбка
Картинки, например, "Будда перепрыгивает через стену
Такие изображения, как "Горячие пирожки с мясом осла
Картинки, похожие на Пивная утка
Чувак сказал: на этот раз все по-другому, давай я покажу тебе одну даму, которую сгенерировал первой.
Действительно, есть такое ощущение, что от деталей, мазков кисти, восприятия изображения, становятся все лучше и лучше. случае часто говорят много глупостей, но конкретное применение эффекта является как, от всех измерений различных сценариев многочисленных результатов тестирования тщательно рассмотреть.
Я сказал, не хвастайся первым, у меня тоже есть родовой тестовый набор, из сцены, содержания, объектива, стиля, мазки охватывают множество углов, позволь мне помучить некоторых.
Картина маслом Prompt: классическая картина маслом, изображающая белокурую дворянку в великолепном голубом платье в стиле масляной живописи.
Изображение
Фотографическая задумка: безмятежное горное озеро в черно-белом стиле Анселя Адамса, в котором отражается окружающий сосновый лес. Утренний туман, холмы вдали и слабый утренний свет в небе.
Акварельная подсказка: Коричневый котенок тихо спит, свернувшись калачиком, с мягкой пушистой шерсткой, очень милый, акварель.
Задача эскиза: детальный карандашный набросок внушительного тигра, стоящего на травянистой равнине, с густым лесом и горами на заднем плане, каждая линия мышц животного прорисована в ярких деталях.
Рисунок мелком : Детский рисунок мелками, изображающий семью: красный дом, окруженный зеленым лугом, солнце высоко в небе и четыре улыбающиеся фигуры, стоящие перед дверью и по-детски держащиеся за руки.
Children's Picture Book Prompt: page of children's picture book illustration of a little boy sitting on moon with an open book in his hand, surrounded by a sky full of stars, the night sky reveals warmth and serenity. Картинки
Задание для дизайна марок: Дизайн марки с изображением орла, который охотится, на заднем плане - бескрайнее небо и величественно раскинутые крылья орла.