Kemajuan terbaru dalam pembuatan teks-ke-gambar telah didorong oleh model difusi, tetapi model satu tahap menghadapi tantangan dalam efisiensi komputasi dan penyempurnaan detail gambar. Untuk mengatasi hal ini, para penulis mengusulkan CogView3, kerangka kerja bertingkat yang meningkatkan difusi teks-ke-gambar dengan pertama-tama menciptakan gambar beresolusi rendah dan kemudian menerapkan resolusi super berbasis relai. Pendekatan ini menghasilkan output teks-ke-gambar yang kompetitif sekaligus sangat mengurangi biaya pelatihan dan kesimpulan. Hasil eksperimen menunjukkan bahwa CogView3 mengungguli model difusi teks-ke-gambar open-source mutakhir saat ini, SDXL, sebesar 77,0% dalam evaluasi manusia, dan varian sulingnya mencapai kinerja yang sebanding dengan hanya menggunakan 1/10 waktu inferensi.
AI menggambar lebih banyak volume, peningkatan komprehensif efek cogview-3 Plus
Catatan Algoritma Tas Asli Catatan Algoritma Tas
27 September 2024 10:01 Beijing
Teman saya di Smart Spectrum memberi tahu saya bahwa model Vincennes terbaru mereka telah diulang lagi dan lagi, ditingkatkan dari model cogview ke cogview-3 Plus, dan kali ini benar-benar terbaik.
Menurut kesan saya, cogview adalah produk dari era model pra-besar, sebelum lahirnya LLM, model cogview yang diwakili oleh SD telah membunuhnya, tetapi Cina memulai dan menindaklanjuti terlambat, seringkali model Cina tidak memahami bahasa Cina, dan membuat banyak medan yang tidak harmonis.
Misalnya, 'Ikan Mandarin Tupai'
Gambar-gambar seperti 'Buddha melompati dinding'
Gambar seperti 'Hotcakes Daging Keledai'
Gambar seperti Bebek Bir
Kawan berkata, kali ini benar-benar berbeda, mari saya tunjukkan seorang wanita yang saya hasilkan pertama kali.
Memang, ada perasaan semacam itu, dari detail, sapuan kuas, persepsi gambar, menjadi semakin baik dan semakin baik. kasus sering mengatakan banyak omong kosong, tetapi penerapan spesifik efeknya adalah, bagaimana, dari semua dimensi dari berbagai skenario dari berbagai hasil pengujian yang perlu dipertimbangkan secara cermat.
Saya berkata, jangan membual dulu, saya juga memiliki seperangkat tes leluhur, dari adegan, konten, lensa, gaya, sapuan kuas yang mencakup banyak sudut, biarkan saya menyiksa beberapa.
Oil Painting Prompt: lukisan cat minyak klasik yang menggambarkan seorang wanita bangsawan berambut pirang dengan gaun biru yang cantik dalam gaya lukisan cat minyak.
Gambar
Saran Fotografi: danau pegunungan yang tenang dalam gaya hitam-putih Ansel Adams, dengan danau yang memantulkan hutan pinus di sekelilingnya. Kabut pagi, perbukitan di kejauhan, dan cahaya pagi yang redup di langit.
Cat air yang cepat: Seekor anak kucing berwarna cokelat yang sedang tidur pulas meringkuk dengan bulu yang lembut dan halus, sangat menggemaskan, cat air.
Sketsa Cepat: sketsa pensil yang mendetail tentang harimau yang megah, berdiri di dataran berumput, dengan latar belakang hutan lebat dan pegunungan, setiap garis otot hewan ini terukir dengan detail yang jelas.
Permintaan Krayon : Gambar krayon seorang anak yang menggambar sebuah keluarga, rumah merah yang dikelilingi padang rumput hijau, matahari yang tinggi di langit dan empat sosok yang tersenyum berdiri di depan pintu, berpegangan tangan dengan cara yang seperti anak-anak.
Buku Bergambar Anak-Anak Prompt: halaman buku bergambar anak-anak yang mengilustrasikan seorang anak laki-laki duduk di bulan dengan buku terbuka di tangannya, dikelilingi oleh langit yang penuh dengan bintang-bintang, langit malam menampakkan kehangatan dan ketenangan. Gambar
Permintaan Desain Prangko: Desain prangko yang menggambarkan seekor burung elang yang sedang berburu, dengan latar belakang langit yang luas dan sayap burung elang yang terbentang megah.