Jüngste Fortschritte bei der Text-zu-Bild-Erzeugung wurden durch Diffusionsmodelle vorangetrieben, aber einstufige Modelle stehen vor Herausforderungen bei der Recheneffizienz und der Verfeinerung der Bilddetails. Um dieses Problem zu lösen, schlagen die Autoren CogView3 vor, ein kaskadiertes Framework, das die Text-Bild-Diffusion verbessert, indem es zunächst niedrig aufgelöste Bilder erzeugt und dann eine relaisbasierte Superauflösung anwendet. Dieser Ansatz führt zu konkurrenzfähigen Text-Bild-Ergebnissen und reduziert gleichzeitig die Kosten für Training und Inferenz. Experimentelle Ergebnisse zeigen, dass CogView3 das derzeitige State-of-the-Art Open-Source Text-zu-Bild-Diffusionsmodell SDXL in menschlichen Bewertungen um 77,0% übertrifft, und seine destillierte Variante erreicht eine vergleichbare Leistung, während sie nur 1/10 der Inferenzzeit benötigt.
AI Zeichnung mehr und mehr Volumen, cogview-3 Plus-Effekt umfassendes Upgrade
Ursprünglicher Beutelalgorithmus Anmerkungen Beutelalgorithmus Anmerkungen
27. September 2024 10:01 Peking
Mein Kumpel bei Smart Spectrum erzählte mir, dass ihr aktuelles Vincennes-Modell immer wieder überarbeitet wurde, vom cogview-Modell zum cogview-3 Plus, und dieses Mal ist es absolut erstklassig.
Meinem Eindruck nach ist cogview ein Produkt der Ära vor dem großen Modell, vor der Geburt des LLM, cogview Modelle, die von SD vertreten wurden, haben es getötet, aber die China starten und folgen spät, oft das chinesische Modell nicht verstehen, die Chinesen, und machen eine Menge von harmonischen Gelände.
Zum Beispiel: "Eichhörnchen-Mandarinfisch
Bilder wie "Buddha springt über die Mauer
Bilder wie "Esel-Fleisch-Hotcakes
Bilder wie Beer Duck
Der Typ sagte: "Diesmal ist es wirklich anders, ich zeige dir eine Dame, die ich zuerst generiert habe.
In der Tat gibt es diese Art von Gefühl, von den Details, Pinselstriche, die Bildwahrnehmung, werden immer besser und besser. Fall oft sagen, eine Menge Unsinn, aber die spezifische Anwendung der Wirkung ist, wie, aus allen Dimensionen der verschiedenen Szenarien der zahlreichen Testergebnisse sorgfältig zu prüfen.
Ich sagte, prahlen Sie nicht zuerst, ich habe auch eine angestammte Testreihe, von der Szene, Inhalt, Objektiv, Stil, Pinselstriche decken viele Winkel, lassen Sie mich quälen einige.
Oil Painting Prompt: ein klassisches Ölgemälde, das eine blonde Adelige in einem prächtigen blauen Kleid im Stil eines Ölgemäldes darstellt.
Bild
Aufforderung zum Fotografieren: ein ruhiger Bergsee im Schwarz-Weiß-Stil von Ansel Adams, in dem sich der See im umliegenden Kiefernwald spiegelt. Morgennebel, sanfte Hügel in der Ferne und schwaches Morgenlicht am Himmel.
Aquarell-Aufforderung: Ein braunes Kätzchen schläft ruhig zusammengerollt mit weichem, flauschigem Fell, sehr süß, Aquarell.
Sketch Prompt: detaillierte Bleistiftskizze eines imposanten Tigers, der auf einer grasbewachsenen Ebene steht, mit dichtem Wald und Bergen im Hintergrund, jede Muskellinie des Tieres ist in lebendigem Detail geätzt.
Buntstiftvorlage : Eine Kinderkreidezeichnung einer Familie, ein rotes Haus umgeben von einer grünen Wiese, die Sonne steht hoch am Himmel und vier lächelnde Figuren stehen vor der Tür und halten sich kindlich an den Händen.
Bilderbuch für Kinder: eine Seite mit einer Bilderbuchillustration für Kinder, die einen kleinen Jungen zeigt, der mit einem aufgeschlagenen Buch in der Hand auf dem Mond sitzt, umgeben von einem Himmel voller Sterne, der Wärme und Gelassenheit ausstrahlt. Bilder
Aufforderung zur Briefmarkengestaltung: Ein Briefmarkenmotiv, das einen jagenden Adler zeigt, mit einem weiten Himmel im Hintergrund und majestätisch ausgebreiteten Flügeln des Adlers.