مولمو للذكاء الاصطناعي: نموذج الذكاء الاصطناعي متعدد اللغات المفتوح متعدد الوسائط SOTA

عائلة مولمو من نماذج لغة الرؤية المفتوحة التي طورها معهد ألين للذكاء الاصطناعي. المصدر المفتوح

يعتمد MolmoAI على كوين2

Molmo AI مجانًا بدون تسجيل الدخول عبر الإنترنت

إذا واجهت خطأ، يرجى اختيار واحد آخر

صورة روبوت الدردشة الآلي
صورة روبوت الدردشة الآلي
نموذج اللغة المرئية
استرجاع المستندات

روبوت الدردشة بالصور مع Molmo-7B

صورة روبوت الدردشة الآلي مع MolmoE-1B

نموذج اللغة المرئية - مولمو

مولد الاستعلامات متعدد الوسائط ColPali الذي يقوم بضبط مولد الاستعلامات ColPali هو نهج جديد ومثير للغاية لاسترجاع المستندات متعدد الوسائط يهدف إلى استبدال مسترجعات المستندات الحالية التي تعتمد غالبًا على خطوة التعرف الضوئي على الحروف بنهج متعدد الوسائط من البداية إلى النهاية.

مولمو :الأوزان المفتوحة والبيانات المفتوحة
لأحدث النماذج المتعددة الوسائط الحديثة

Molmo هو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر تم إصداره حديثاً من قبل معهد ألين للذكاء الاصطناعي (Ai2). تم الإعلان عنه في 25 سبتمبر 2024، وهو يهدف إلى توفير قدرات عالية الأداء مع الحفاظ على حجم نموذج أصغر بكثير مقارنة بأنظمة الذكاء الاصطناعي الرائدة الأخرى، مثل GPT-4o من OpenAI و Gemini 1.5 Pro من Google. هناك ثلاثة إصدارات من نموذج Molmo ai :

مولمو إي-1ب: نموذج مزيج من الخبراء مع 1 مليار معلمة نشطة.
مولمو-7ب-أو: الإصدار الأكثر سهولة مع 7 مليار معلمة.
مولمو-72ب: الإصدار الأفضل أداءً مع 72 مليار معلمة

مولمو إي-1ب: نموذج مزيج من الخبراء مع 1 مليار معلمة نشطة.

مولمو-7ب-أو: الإصدار الأكثر سهولة مع 7 مليار معلمة.

مولمو-72ب: الإصدار الأفضل أداءً مع 72 مليار معلمة

مقارنة انفتاح VLM VLM Molmo AI متفوقًا على GPT-4o وGemini 1.5 Pro وClaude 3.5

نقوم بتوصيف انفتاح الآليات ذات القيمة السوقية المنخفضة جدًا استنادًا إلى سمتين (الأوزان المفتوحة والبيانات المفتوحة و
رمز) عبر ثلاثة مكوّنات للنموذج (نموذج VLM ومكوّنيه المدرّبين مسبقًا، والعمود الفقري LLM ومشفّر الرؤية). بالإضافة إلى التسمية "مفتوح مقابل مغلق"، نستخدم التسمية "مقطر" للإشارة إلى أن البيانات المستخدمة لتدريب نموذج VLM تتضمن صورًا ونصوصًا تم إنشاؤها بواسطة نموذج VLM مختلف، مما يعني أنه لا يمكن إعادة إنتاج النموذج دون الاعتماد على نموذج VLM الخاص

ما هو حديث الناس عن PixelDance في وسائل التواصل الاجتماعي

مولمو من @ألين_أي - نموذج لغة SoTA متعدد الوسائط (الرؤية) مفتوح المصدر، يتفوق على كلود 3.5 سونيت، GPT4V ويضاهي GPT4o 🔥

يطلقون أربع نقاط تفتيش نموذجية:

1. MolmoE-1B، نموذج خليط من الخبراء مع 1B (نشط) 7B (إجمالي)
2. Molmo-7B-O، الطراز 7B الأكثر انفتاحاً من طراز 7B
3.... pic.twitter.com/9hparh0GYT
- فايبهاف (Vaibhav (VB) سريفاستاف (@reach_vb) 25 سبتمبر 2024

تعرّف على مولمو 🔥🔥

ذكاء اصطناعي متطور متعدد الوسائط ومفتوح المصدر وقوي ومجاني للجميع.

شاهد هذا العرض التوضيحي المذهل لروبوت يستخدم نموذج مولمو لاكتشاف الأجسام.

لديهم نسخة مستضافة مجانية على الموقع الإلكتروني لتجربة النموذج مع تحويل الصورة إلى نص وتحويل النص إلى صورة. لقد كنت... pic.twitter.com/Qx7hp1rtcb
- براشانت (@براشانت_1722) 27 سبتمبر 2024

البارحة @ألين_أي إصدار مالمو - مجموعة من أحدث نماذج الذكاء الاصطناعي متعددة الوسائط المفتوحة

يوفر التأشير تفسيرًا طبيعيًا يرتكز على بكسلات الصورة

عندما تطلب من مالمو الكشف عن الأجسام أو عدّها، سيضع علامة على الأجسام المكتشفة بنقاط

الرابط: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- سكالسكي ب (@skalskip92) 26 سبتمبر 2024

مولمو من @ألين_أي - نموذج SOTA متعدد الوسائط

🤗نماذج مفتوحة وبيانات مفتوحة جزئياً
🤏7B و 72B أحجام النماذج (+7B MoE مع 1B بارامترات نشطة)
🤯معايير أعلى من GPT-4V، فلاش، إلخ
🗣️Human تفضيل 72B على قدم المساواة مع أفضل موديلات API
🧠PixMo، مجموعة بيانات عالية الجودة للتعليق على... pic.twitter.com/faqvCkCkAmsb
- عمر سانسيفييرو (@osanseviero) 25 سبتمبر 2024

جرّب @ألين_أيMolmo VLM على Open GRID الآن! تجلب Molmo VLMs مثل Molmo طبقة غنية من المعرفة الدلالية إلى الروبوتات - مما يسمح لها بالرد على استفسارات المستخدم وتفسير البيئات المعقدة بسهولة. قم بتوسيع نطاق حلول الذكاء الاصطناعي المستقل باستخدام أحدث نماذج الذكاء الاصطناعي على GRID اليوم! https://t.co/q9szAT1PiG pic.twitter.com/XuyYYpMhQ8D
- Scaled Foundations (@ScaFoAI) 27 سبتمبر 2024

لاما 3.2 قد لا يكون الإصدار متعدد الوسائط الأكثر إثارة للاهتمام أمس. 🤔 مولمو من @ألين_أي يتفوق في الأداء على Llama 3.2، المتوفر تحت Apache 2.0 وفي الاتحاد الأوروبي، وسيصدر بياناته، ويُنشئ تقييمات ELO مخصصة، وبنية أبسط من mllama3.2 التي يُفترض أنها pic.twitter.com/du63z63zXjQcN
- فيليب شميد (@_philschmid) 26 سبتمبر 2024

الأسئلة المتداولة حول مولمو

Molmo هو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر طوره معهد ألين للذكاء الاصطناعي (Ai2) يتفوق في أدائه على لاما 3.2 وهو متاح بموجب رخصة أباتشي 2.0.

مولمو يتفوق في الأداء لاما 3.2 ومصممة لتكون أكثر كفاءة مع بنية أبسط من المفترض أن تكون متوافقة مع الانتباه السريع.

تم إصدار جميع نماذج مولمو بموجب ترخيص Apache 2.0 Apache 2.0 وهي متاحة على موقع Hugging Face.

يأتي مولمو في أربعة أنواع رئيسية: MolmoE-1B (مزيج من نموذج الخبراء)، وMolmo-7B-O، وMolmo-7B-D، وMolmo-72B. يعتمد الإصدار 72B على Qwen2-72B ويستخدم OpenAI CLIP كعمود فقري للرؤية.

يركز Molmo على جودة البيانات بدلاً من الكمية، وذلك باستخدام أوصاف الصور المستندة إلى الكلام للحصول على بيانات تدريب عالية الجودة من مجموعة بيانات PixMo.

يستطيع Molmo فهم واجهات المستخدم والإشارة إلى ما يراه. وهو يتفوق في معالجة كل من النصوص والصور في وقت واحد، مما يسمح للمستخدمين بطرح أسئلة حول الصور لمهام مثل تحديد الأشياء أو عدّ العناصر داخل المشهد.

تم تقييم Molmo على 11 معيارًا أكاديميًا ومن خلال 325,231 مقارنة ثنائية بين البشر، مما يدل على أدائه وتفضيل المستخدم له.

نعم، يمكنك تجربة نماذج ممتعة وقوية مثل : ناشرات الصور الموزعة , لاما 3.2 , كوين2.5

جرب أفضل نموذج للذكاء الاصطناعي مجانًا عبر الإنترنت في 8بيكسل لابز

المزيد من منشور نموذج الذكاء الاصطناعي مؤخراً