文本到图像生成的最新进展是由扩散模型推动的,但单级模型在计算效率和图像细节细化方面面临挑战。为了解决这个问题,作者提出了 CogView3,这是一个级联框架,通过首先创建低分辨率图像,然后应用基于中继的超分辨率来增强文本到图像的扩散。这种方法能产生有竞争力的文本到图像输出,同时大大降低了训练和推理成本。实验结果表明,在人类评估中,CogView3 的性能比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,其蒸馏变体的性能与之相当,而推理时间仅为后者的 1/10。

AI 绘图量越来越大,cogview-3 Plus 效果全面升级
原袋算法说明 袋算法说明
2024 年 9 月 27 日 10:01 北京
我在 Smart Spectrum 的朋友告诉我,他们最近的 Vincennes 型号经过了一次又一次的迭代,从 cogview 型号升级到了 cogview-3 Plus,这次绝对是一流的。

在我的印象中,cogview是前大模型时代的产物,在LLM诞生之前,以SD为代表的cogview模型大杀四方,但中国起步晚、跟进晚,往往是中国模型不懂中国人,搞出很多谐音地形。

例如,"松鼠鳜鱼

佛跳墙 "等图片

驴肉热饼》等图片


像啤酒鸭一样的图片


老兄说,这次真的不一样,让我先给你看看我产生的一位女士。


确实有那种感觉,从细节、笔触、画面的观感上,都越来越好。"案例中经常会说很多废话,但具体应用效果如何,还得从各个维度各种场景的众多测试结果中去仔细考量。

我说,先别吹牛,我也有一套祖传的考据,从场景、内容、镜头、风格、笔触多角度涵盖,让我拷问一番。

油画创作提示:一幅经典的油画,描绘了一位身着华丽蓝色礼服的金发贵妇,具有油画的风格。
图片

摄影提示:安塞尔-亚当斯(Ansel Adams)黑白风格的宁静山湖,湖面倒映着周围的松树林。晨雾缭绕,远处山峦起伏,天边晨光微弱。


水彩画提示:一只棕色的小猫安静地蜷缩着睡觉,毛茸茸的,非常可爱,水彩画。



素描提示:一幅细致的铅笔素描,一只威风凛凛的老虎站在草地上,背景是茂密的森林和山脉,动物的每一根肌肉线条都刻画得栩栩如生。


蜡笔提示:一幅儿童蜡笔画,画的是一个家庭,红色的房子被绿色的草地环绕,太阳高高挂在天空,四个微笑的身影站在门前,手拉着手,充满童趣。




儿童绘本创作提示:一页儿童绘本插画,一个小男孩坐在月亮上,手里拿着一本打开的书,周围是满天的繁星,夜空透露着温馨和宁静。图片
邮票设计提示:邮票设计图案描绘一只正在狩猎的雄鹰,背景是广阔的天空,雄鹰展翅飞翔,气势磅礴。