CogView3-中国語テキスト画像変換モデルは悪くない

テキストから画像への生成における最近の進歩は拡散モデルによって推進されてきましたが、単一ステージモデルは計算効率と画像の詳細の改良において課題に直面しています。これに対処するために、著者らは CogView3 を提案しています。これは、最初に低解像度の画像を作成し、次にリレーベースの超解像度を適用することでテキストから画像への拡散を強化するカスケードフレームワークです。このアプローチにより、競争力のあるテキストから画像への出力が得られ、トレーニングと推論のコストが大幅に削減されます。実験結果によると、CogView3 は、人間による評価で、現在の最先端のオープンソーステキストから画像への拡散モデルである SDXL を 77.0% 上回り、その精製版は推論時間のわずか 1/10 で同等のパフォーマンスを達成しています。

AI描画ボリュームがますます増加、cogview-3 Plus効果の総合アップグレード
オリジナルバッグアルゴリズムノートバッグアルゴリズムノート
2024年9月27日 10:01 北京
Smart Spectrum の友人によると、最近の Vincennes モデルは何度も改良され、cogview モデルから cogview-3 Plus にアップグレードされており、今回は間違いなく最高級品だそうです。

私の印象では、cogview は LLM 誕生前のプレラージモデル時代の産物であり、SD に代表される cogview モデルは LLM を圧倒していましたが、中国での開始と追随が遅れ、中国モデルは中国人を理解せず、多くの調和地形を作り出しました。

例えば、「リスマンダリンフィッシュ

「仏陀が壁を飛び越える」などの絵

「ロバ肉のホットケーキ」などの写真

ビールダックのような写真

男は言った、今回は本当に違う、最初に生成した女性をお見せしましょう。

確かに、細部、筆致、画像の認識など、そのような感覚はありますが、どんどん良くなっています。多くの場合、ナンセンスなことをたくさん言いますが、具体的な適用効果はどのようなものか、あらゆる側面から、さまざまなシナリオの多数のテスト結果を慎重に検討する必要があります。

先に自慢しないでください、私も先祖のテストセットを持っています、シーン、コンテンツ、レンズ、スタイル、ブラシストロークから多くの角度をカバーしています、いくつか試してみましょう。

油絵のテーマ: 油絵のスタイルで、ゴージャスな青いドレスを着た金髪の貴婦人を描いた古典的な油絵。
写真

写真撮影のテーマ: アンセル・アダムスの白黒スタイルで描かれた静かな山の湖。湖には周囲の松林が映っています。朝霧、遠くに広がる丘、空にかすかな朝の光。

水彩画のテーマ: 柔らかくふわふわした毛で丸まって静かに眠る茶色の子猫。とてもかわいい水彩画です。

スケッチのテーマ: 草に覆われた平原に立つ堂々としたトラの詳細な鉛筆スケッチ。背景には深い森と山々があり、動物の筋肉の線はすべて鮮明に描かれています。

クレヨンプロンプト: 子供がクレヨンで描いた家族、緑の牧草地に囲まれた赤い家、空の高い太陽、そして子供らしく手をつないでドアの前に立っている 4 人の笑顔の人物。

子ども向け絵本のテーマ: 小さな男の子が月の上に座って、手に開いた本を持ち、満天の星空に囲まれ、夜空が暖かさと静けさを表現している、子ども向け絵本のイラストのページ。写真
切手デザインのテーマ：広大な空を背景に、雄大に翼を広げた鷲が狩りをする様子を描いた切手デザイン。