Molmo AI: Model SOTA Multimodal Open Language AI 

Familia Molmo de modele de limbaj viziune deschis dezvoltate de Institutul Allen pentru IA. OpenSource

MolmoAI se bazează pe Qwen2

Molmo AI Free NoLogin online

Dacă ați întâmpinat o eroare, vă rugăm să alegeți alta

Imagine Chatbot cu Molmo-7B

Imagine Chatbot cu MolmoE-1B

Model de limbaj vizual – Molmo

Generatorul de interogări de ajustare ColPali ColPali este o nouă abordare foarte interesantă a recuperării documentelor multimodale, care urmărește să înlocuiască dispozitivele de recuperare a documentelor existente care se bazează adesea pe un pas OCR cu o abordare multimodală end-to-end.

Molmo:Open Weights și Open Data
pentru modele multimodale de ultimă generație

Molmo este un nou model open-source multimodal AI dezvoltat de Institutul Allen pentru Inteligență Artificială (Ai2). Anunțat pe 25 septembrie 2024, își propune să ofere capabilități de înaltă performanță, menținând în același timp o dimensiune semnificativ mai mică a modelului în comparație cu alte sisteme AI de vârf, cum ar fi GPT-4o de la OpenAI și Gemini 1.5 Pro de la Google. Există trei versiuni ale modelului Molmo ai:

  • MolmoE-1B: Un amestec de model de experți cu 1 miliard de parametri activi.
  • Molmo-7B-O: Cea mai accesibilă versiune cu 7 miliarde de parametri.
  • Molmo-72B: Versiunea cea mai performantă cu 72 de miliarde de parametri

MolmoE-1B: Un amestec de model de experți cu 1 miliard de parametri activi.

Molmo-7B-O: Cea mai accesibilă versiune cu 7 miliarde de parametri.

Molmo-72B: Versiunea cea mai performantă cu 72 de miliarde de parametri

Comparație de deschidere VLM Molmo AI depășește GPT-4o, Gemini 1.5 Pro și Claude 3.5

Caracterizăm deschiderea VLM-urilor pe baza a două atribute (ponderi deschise, date deschise și
cod) pe trei componente ale modelului (VLM și cele două componente ale sale pre-antrenate, coloana vertebrală LLM și codificatorul de viziune). În plus față de deschis vs. închis, folosim eticheta „distilată” pentru a indica faptul că datele utilizate pentru antrenamentul VLM includ imagini și text generate de un VLM diferit, proprietar, ceea ce înseamnă că modelul nu poate fi reprodus fără o dependență de VLM proprietar.

Ce vorbesc oamenii despre PixelDance în Social Media

Întrebări frecvente despre Molmo

Molmo este un model AI multimodal open-source dezvoltat de Institutul Allen pentru Inteligență Artificială (Ai2) care depășește Lama 3.2 și este disponibil sub licența Apache 2.0.

Molmo depășește Lama 3.2 și este conceput pentru a fi mai eficient cu o arhitectură mai simplă, care este probabil compatibilă cu atenția flash.

Toate modelele Molmo sunt lansate sub licența Apache 2.0 și sunt disponibile pe Hugging Face.

Molmo vine în patru variante principale: MolmoE-1B (un amestec de model de experți), Molmo-7B-O, Molmo-7B-D și Molmo-72B. Versiunea 72B se bazează pe Qwen2-72B și folosește OpenAI CLIP ca coloană vertebrală a vederii.

Molmo se concentrează mai degrabă pe calitatea datelor decât pe cantitate, folosind descrieri de imagini bazate pe vorbire pentru date de antrenament de înaltă calitate din setul de date PixMo.

Molmo poate înțelege interfețele de utilizator și poate indica ceea ce vede. Excelează în procesarea simultană atât a textului, cât și a imaginilor, permițând utilizatorilor să pună întrebări despre imagini pentru sarcini precum identificarea obiectelor sau numărarea elementelor dintr-o scenă.

Molmo a fost evaluat pe 11 repere academice și prin 325.231 de comparații umane în perechi, demonstrându-și performanța și preferințele utilizatorului.

Da, puteți experimenta modele distractive și puternice precum: Difuzoare Image Outpaint , Lama3.2 , Qwen2.5

Experimentați cel mai bun model AI gratuit online în 8PixLabs

Mai multe postări de model AI recent