صور الذكاء الاصطناعي لنفسك في أقل من 10 ثوانٍ مشابهة لـ InstantID (لكنها FLUX) PuLID: تخصيص معرف Pure وLightning عبر Contrastive Alignment

مقدمة

PuLID هي طريقة مبتكرة لتخصيص الهوية بدون ضبط مصممة لتوليد النص إلى صورة. من خلال دمج فرع Lightning T2I إلى جانب فرع انتشار قياسي، يقدم PuLID كل من فقدان المحاذاة التباينية وفقدان الهوية الدقيق، مما يقلل من التشويش على النموذج الأصلي ويضمن دقة عالية للهوية. توضح التجارب أن PuLID يحقق أداءً متفوقًا في كل من دقة الهوية وقابلية التحرير. بالإضافة إلى ذلك، فإن الميزة البارزة لـ PuLID هي أن عناصر الصورة (على سبيل المثال، الخلفية والإضاءة والتكوين والأسلوب) تظل متسقة قدر الإمكان قبل وبعد إدخال الهوية.

يحاول بوليد لفلوكس حر

ماذا يحدث على تويتر بخصوص Pulid Flux؟

طُرق

  • محاذاة متناقضة:من خلال فقدان المحاذاة التباينية وفقدان المعرف، يقوم PuLID بإدراج معلومات المعرف دون التأثير على سلوك النموذج الأصلي.
  • فرع Lightning T2I:يقدم فرع Lightning T2I الذي يستخدم تقنيات أخذ العينات السريعة لإنشاء صور عالية الجودة من الضوضاء النقية.
  • تحسين فقدان الهوية:يعمل على تحسين فقدان الهوية في إعداد أكثر دقة لتعزيز تشابه الهوية.

التجارب

  • مقارنة كمية:يقوم بتقييم دقة المعرف باستخدام تشابه جيب التمام للمعرف، مما يوضح أن PuLID يتفوق على الطرق الحالية عبر جميع مجموعات الاختبار والنماذج الأساسية.
  • مقارنة نوعية:يحقق PuLID تشابهًا كبيرًا في الهوية مع التسبب في إزعاج أقل للنموذج الأصلي، وإعادة إنتاج إضاءة النموذج الأصلي وأسلوبه وتخطيطه بدقة.

المساهمات

  1. يقترح طريقة خالية من الضبط، PuLID، والتي تحافظ على تشابه الهوية العالي مع التخفيف من التأثير على سلوك النموذج الأصلي.
  2. يقدم فرع Lightning T2I إلى جانب فرع الانتشار العادي، مع دمج فقدان المحاذاة التباينية وفقدان الهوية لتقليل تلوث معلومات الهوية في النموذج الأصلي مع ضمان الدقة.
  3. تظهر التجارب أن PuLID يحقق أداءً متطورًا من حيث دقة الهوية وإمكانية التحرير، كما أنه أقل تدخلاً في النموذج، مما يجعله أكثر مرونة للتطبيقات العملية.

الأسئلة الشائعة