最近文字到影像產生的進展是由擴散模型所推動的,但是單階段模型在計算效率和影像細節精細化方面面臨挑戰。為了解決這個問題,作者提出了 CogView3,這是一個串聯框架,透過先建立低解析度影像,然後再應用基於中繼的超解析度,來增強文字到影像的擴散。此方法可產生具有競爭力的文字到影像輸出,同時大幅降低訓練與推論成本。實驗結果顯示,在人類評估中,CogView3 的表現比目前最先進的開放原始碼文字到影像擴散模型 SDXL 優勝 77.0%,而其蒸餾變異體也達到相當的效能,同時只使用 1/10 的推論時間。
AI 繪圖量越來越多,cogview-3 Plus 效果全面升級
Original Bag Algorithm Notes Bag Algorithm Notes
2024 年 9 月 27 日 10:01 北京
我在 Smart Spectrum 的好友告訴我,他們最近的 Vincennes 機型經過一次又一次的迭代,從 cogview 機型升級到 cogview-3 Plus,這一次絕對是頂級的。
在我的印象中,cogview是前大模型時代的產物,在LLM誕生之前,以SD為代表的cogview模型一直大殺四方,但中國起步晚、跟進晚,往往是中國人的模型不懂中國人,搞出很多諧波地形。
例如,「松鼠鳜鱼

佛跳牆」等圖片

驢肉熱餅」等圖片

像啤酒鴨的圖片

老兄說,這次真的不一樣,讓我先給你看我生成的一位女士。

確實有那種感覺,從細節、筆觸、圖像的感覺,都越來越好。案例中經常會說很多廢話,但具體的應用效果如何,還得從各個維度各個場景的無數測試結果中去仔細考量。
我說,先別吹牛,我也有一套祖傳的測試套路,從場景、內容、鏡頭、風格、筆觸多角度涵蓋,讓我拷問一番。
油畫創作提示:一幅經典的油畫,描繪一位身穿華麗藍色禮服的金髮貴婦,風格如油畫一般。
圖片
攝影提示:安塞爾-亞當斯(Ansel Adams)黑白風格的寧靜高山湖泊,湖面倒映著周圍的松林。晨霧、遠處連綿的山丘、天邊微弱的晨光。

水彩畫提示:一隻棕色的小貓靜靜地蜷縮著睡覺,毛茸茸的柔軟,非常可愛,水彩畫。

素描提示:一隻威武的老虎的細部鉛筆素描,老虎站在草地上,背景是茂密的森林和群山,動物的每一個肌肉線條都刻得栩栩如生。

蠟筆提示:兒童蠟筆畫中的一家人,紅色的房子被綠色的草地包圍著,太陽高高的挂在天上,四個微笑的身影站在門前,手拉手的樣子很有童趣。

兒童圖畫書提示:一頁兒童圖畫書插畫,一個小男孩坐在月亮上,手上拿著一本打開的書,周圍是滿天繁星,夜空透露著溫暖與寧靜。圖片
郵票設計提示:郵票設計:描繪一隻老鷹正在狩獵,背景是廣闊的天空,老鷹展翅翱翔,威風凜凜。
