مولمو للذكاء الاصطناعي: نموذج الذكاء الاصطناعي متعدد اللغات المفتوح متعدد الوسائط SOTA 

عائلة مولمو من نماذج لغة الرؤية المفتوحة التي طورها معهد ألين للذكاء الاصطناعي. المصدر المفتوح

يعتمد MolmoAI على كوين2

Molmo AI مجانًا بدون تسجيل الدخول عبر الإنترنت

إذا واجهت خطأ، يرجى اختيار واحد آخر

روبوت الدردشة بالصور مع Molmo-7B

صورة روبوت الدردشة الآلي مع MolmoE-1B

نموذج اللغة المرئية - مولمو

مولد الاستعلامات متعدد الوسائط ColPali الذي يقوم بضبط مولد الاستعلامات ColPali هو نهج جديد ومثير للغاية لاسترجاع المستندات متعدد الوسائط يهدف إلى استبدال مسترجعات المستندات الحالية التي تعتمد غالبًا على خطوة التعرف الضوئي على الحروف بنهج متعدد الوسائط من البداية إلى النهاية.

مولمو :الأوزان المفتوحة والبيانات المفتوحة
لأحدث النماذج المتعددة الوسائط الحديثة

Molmo هو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر تم إصداره حديثاً من قبل معهد ألين للذكاء الاصطناعي (Ai2). تم الإعلان عنه في 25 سبتمبر 2024، وهو يهدف إلى توفير قدرات عالية الأداء مع الحفاظ على حجم نموذج أصغر بكثير مقارنة بأنظمة الذكاء الاصطناعي الرائدة الأخرى، مثل GPT-4o من OpenAI و Gemini 1.5 Pro من Google. هناك ثلاثة إصدارات من نموذج Molmo ai :

  • مولمو إي-1ب: نموذج مزيج من الخبراء مع 1 مليار معلمة نشطة.
  • مولمو-7ب-أو: الإصدار الأكثر سهولة مع 7 مليار معلمة.
  • مولمو-72ب: الإصدار الأفضل أداءً مع 72 مليار معلمة

مولمو إي-1ب: نموذج مزيج من الخبراء مع 1 مليار معلمة نشطة.

مولمو-7ب-أو: الإصدار الأكثر سهولة مع 7 مليار معلمة.

مولمو-72ب: الإصدار الأفضل أداءً مع 72 مليار معلمة

مقارنة انفتاح VLM VLM Molmo AI متفوقًا على GPT-4o وGemini 1.5 Pro وClaude 3.5

نقوم بتوصيف انفتاح الآليات ذات القيمة السوقية المنخفضة جدًا استنادًا إلى سمتين (الأوزان المفتوحة والبيانات المفتوحة و
رمز) عبر ثلاثة مكوّنات للنموذج (نموذج VLM ومكوّنيه المدرّبين مسبقًا، والعمود الفقري LLM ومشفّر الرؤية). بالإضافة إلى التسمية "مفتوح مقابل مغلق"، نستخدم التسمية "مقطر" للإشارة إلى أن البيانات المستخدمة لتدريب نموذج VLM تتضمن صورًا ونصوصًا تم إنشاؤها بواسطة نموذج VLM مختلف، مما يعني أنه لا يمكن إعادة إنتاج النموذج دون الاعتماد على نموذج VLM الخاص

ما هو حديث الناس عن PixelDance في وسائل التواصل الاجتماعي

الأسئلة المتداولة حول مولمو

Molmo هو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر طوره معهد ألين للذكاء الاصطناعي (Ai2) يتفوق في أدائه على لاما 3.2 وهو متاح بموجب رخصة أباتشي 2.0.

مولمو يتفوق في الأداء لاما 3.2 ومصممة لتكون أكثر كفاءة مع بنية أبسط من المفترض أن تكون متوافقة مع الانتباه السريع.

تم إصدار جميع نماذج مولمو بموجب ترخيص Apache 2.0 Apache 2.0 وهي متاحة على موقع Hugging Face.

يأتي مولمو في أربعة أنواع رئيسية: MolmoE-1B (مزيج من نموذج الخبراء)، وMolmo-7B-O، وMolmo-7B-D، وMolmo-72B. يعتمد الإصدار 72B على Qwen2-72B ويستخدم OpenAI CLIP كعمود فقري للرؤية.

يركز Molmo على جودة البيانات بدلاً من الكمية، وذلك باستخدام أوصاف الصور المستندة إلى الكلام للحصول على بيانات تدريب عالية الجودة من مجموعة بيانات PixMo.

يستطيع Molmo فهم واجهات المستخدم والإشارة إلى ما يراه. وهو يتفوق في معالجة كل من النصوص والصور في وقت واحد، مما يسمح للمستخدمين بطرح أسئلة حول الصور لمهام مثل تحديد الأشياء أو عدّ العناصر داخل المشهد.

تم تقييم Molmo على 11 معيارًا أكاديميًا ومن خلال 325,231 مقارنة ثنائية بين البشر، مما يدل على أدائه وتفضيل المستخدم له.

نعم، يمكنك تجربة نماذج ممتعة وقوية مثل : ناشرات الصور الموزعة , لاما 3.2 , كوين2.5

جرب أفضل نموذج للذكاء الاصطناعي مجانًا عبر الإنترنت في 8بيكسل لابز

المزيد من منشور نموذج الذكاء الاصطناعي مؤخراً