टेक्स्ट-टू-इमेज निर्माण में हाल ही में हुई प्रगति प्रसार मॉडल द्वारा संचालित की गई है, लेकिन एकल-चरण मॉडल कम्प्यूटेशनल दक्षता और छवि विवरण परिशोधन में चुनौतियों का सामना करते हैं। इसे संबोधित करने के लिए, लेखक कॉगव्यू3 का प्रस्ताव करते हैं, एक कैस्केडेड फ्रेमवर्क जो पहले कम-रिज़ॉल्यूशन वाली छवियां बनाकर और फिर रिले-आधारित सुपर-रिज़ॉल्यूशन लागू करके टेक्स्ट-टू-इमेज प्रसार को बढ़ाता है। इस दृष्टिकोण के परिणामस्वरूप प्रतिस्पर्धी टेक्स्ट-टू-इमेज आउटपुट प्राप्त होते हैं जबकि प्रशिक्षण और अनुमान लागत में बहुत कमी आती है। प्रायोगिक परिणाम दिखाते हैं कि कॉगव्यू3 मानव मूल्यांकन में वर्तमान अत्याधुनिक ओपन-सोर्स टेक्स्ट-टू-इमेज प्रसार मॉडल, SDXL से 77.0% बेहतर प्रदर्शन करता है, और इसका आसुत संस्करण अनुमान समय का केवल 1/10 उपयोग करते हुए तुलनीय प्रदर्शन प्राप्त करता है।

एआई अधिक से अधिक वॉल्यूम खींच रहा है, कॉगव्यू-3 प्लस प्रभाव व्यापक उन्नयन
मूल बैग एल्गोरिथ्म नोट्स बैग एल्गोरिथ्म नोट्स
27 सितंबर 2024 10:01 बीजिंग
स्मार्ट स्पेक्ट्रम में मेरे मित्र ने मुझे बताया कि उनके हालिया विंसेन्नेस मॉडल को बार-बार दोहराया गया है, कॉगव्यू मॉडल से कॉगव्यू-3 प्लस में अपग्रेड किया गया है, और इस बार यह बिल्कुल शीर्ष स्तर का है।

मेरी धारणा में, कॉगव्यू पूर्व-बड़े मॉडल युग का एक उत्पाद है, एलएलएम के जन्म से पहले, एसडी द्वारा प्रतिनिधित्व किए गए कॉगव्यू मॉडल इसे मार रहे हैं, लेकिन चीन शुरू होता है और देर से पालन करता है, अक्सर चीनी मॉडल चीनी को नहीं समझता है, और बहुत सारे हार्मोनिक इलाके बनाते हैं।

उदाहरण के लिए, 'गिलहरी मंदारिन मछली

'बुद्ध दीवार पर कूदते हैं' जैसे चित्र

'गधे के मांस के हॉटकेक' जैसी तस्वीरें


बियर डक जैसी तस्वीरें


दोस्त ने कहा, इस बार यह वास्तव में अलग है, मैं आपको एक महिला दिखाता हूं जिसे मैंने पहले बनाया था।


वास्तव में, उस तरह की भावना है, विवरण से, ब्रश स्ट्रोक, छवि धारणा, बेहतर और बेहतर हो रही है। मामले में अक्सर बहुत सारी बकवास कहते हैं, लेकिन प्रभाव का विशिष्ट अनुप्रयोग कैसे है, कई परीक्षण परिणामों के विभिन्न परिदृश्यों के सभी आयामों से सावधानी से विचार करना है।

मैंने कहा, पहले डींग मत मारो, मेरे पास भी पुश्तैनी टेस्ट सेट है, दृश्य, विषय-वस्तु, लेंस, शैली, ब्रश स्ट्रोक से लेकर कई कोणों को कवर करता हूं, मुझे कुछ यातनाएं देने दो।

तेल चित्रकला संकेत: एक क्लासिक तेल चित्रकला जिसमें एक सुनहरे बालों वाली कुलीन महिला को तेल चित्रकला की शैली में एक भव्य नीले रंग की पोशाक में दर्शाया गया है।
चित्र

फ़ोटोग्राफ़ी प्रॉम्प्ट: एन्सेल एडम्स की ब्लैक एंड व्हाइट शैली में एक शांत पहाड़ी झील, जिसमें झील के आस-पास के देवदार के जंगल की झलक दिखाई देती है। सुबह का कोहरा, दूर-दूर तक फैली पहाड़ियाँ और आसमान में सुबह की हल्की रोशनी।


जल रंग संकेत: एक भूरे रंग का बिल्ली का बच्चा नरम रोयेंदार फर के साथ चुपचाप सो रहा है, बहुत प्यारा, जल रंग।



रेखाचित्र: एक घास के मैदान पर खड़े एक भव्य बाघ का विस्तृत पेंसिल स्केच, पृष्ठभूमि में घने जंगल और पहाड़, जानवर की हर मांसपेशी रेखा को स्पष्ट विवरण में उकेरा गया है।


क्रेयॉन प्रॉम्प्ट: एक बच्चे द्वारा क्रेयॉन से बनाया गया एक परिवार का चित्र, जिसमें एक लाल घर है जो हरे घास के मैदान से घिरा है, आसमान में ऊंचा सूरज है और दरवाजे के सामने बच्चों की तरह हाथ थामे खड़े चार मुस्कुराते हुए व्यक्ति हैं।




बच्चों की चित्र पुस्तक संकेत: बच्चों की चित्र पुस्तक का एक पृष्ठ जिसमें एक छोटा लड़का चाँद पर बैठा है और उसके हाथ में एक खुली किताब है, चारों ओर तारों से भरा आकाश है, रात का आकाश गर्मी और शांति को दर्शाता है। चित्र
स्टाम्प डिजाइन प्रॉम्प्ट: एक स्टाम्प डिजाइन जिसमें एक बाज को शिकार करते हुए दर्शाया गया है, पृष्ठभूमि में विशाल आकाश है और बाज के पंख राजसी ढंग से फैले हुए हैं।