Molmo AI : Modèle d'IA multimodale en langage ouvert SOTA

Molmo Famille de modèles ouverts de langage de vision développés par l'Allen Institute for AI. OpenSource

MolmoAI est basé sur Qwen2

Molmo AI Free NoLogin en ligne

Si vous rencontrez une erreur, veuillez en choisir une autre

Chatbot d'image
Chatbot d'image
Modèle de langage visuel
Recherche de documents

Chatbot d'images avec Molmo-7B

Chatbot d'images avec MolmoE-1B

Modèle de langage visuel - Molmo

ColPali fine-tuning Query Generator ColPali est une nouvelle approche très intéressante de la recherche documentaire multimodale qui vise à remplacer les chercheurs de documents existants, qui reposent souvent sur une étape d'OCR, par une approche multimodale de bout en bout.

Molmo :Poids et données ouverts
pour des modèles multimodaux de pointe

Molmo est un nouveau modèle d'IA multimodale open-source développé par l'Allen Institute for Artificial Intelligence (Ai2). Annoncé le 25 septembre 2024, il vise à fournir des capacités de haute performance tout en maintenant une taille de modèle significativement plus petite par rapport à d'autres systèmes d'IA de premier plan, tels que GPT-4o d'OpenAI et Gemini 1.5 Pro de Google. Il existe trois versions du modèle d'IA Molmo :

MolmoE-1B: Un modèle de mélange d'experts avec 1 milliard de paramètres actifs.
Molmo-7B-O: La version la plus accessible avec 7 milliards de paramètres.
Molmo-72B: La version la plus performante avec 72 milliards de paramètres

MolmoE-1B: Un modèle de mélange d'experts avec 1 milliard de paramètres actifs.

Molmo-7B-O: La version la plus accessible avec 7 milliards de paramètres.

Molmo-72B: La version la plus performante avec 72 milliards de paramètres

Comparaison de l'ouverture du VLM Molmo AI surpasse GPT-4o, Gemini 1.5 Pro et Claude 3.5

Nous caractérisons l'ouverture des VLM sur la base de deux attributs (poids ouverts, données ouvertes, et
code) à travers trois composants du modèle (le VLM et ses deux composants pré-entraînés, l'épine dorsale LLM et l'encodeur de vision). En plus de la distinction entre ouvert et fermé, nous utilisons l'étiquette "distillé" pour indiquer que les données utilisées pour entraîner le VLM comprennent des images et du texte générés par un VLM propriétaire différent, ce qui signifie que le modèle ne peut pas être reproduit sans dépendre du VLM propriétaire.

Qu'est-ce que les gens disent de PixelDance dans les médias sociaux ?

Molmo par @allen_ai - Modèle de langage multimodal (vision) SoTA open source, battant Claude 3.5 Sonnet, GPT4V et comparable à GPT4o 🔥

Ils publient quatre modèles de points de contrôle :

1. MolmoE-1B, un modèle de mélange d'experts avec 1B (actif) 7B (total)
2. Molmo-7B-O, le modèle 7B le plus ouvert
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 25 septembre 2024

Rencontrez MOLMO 🔥🔥🔥🔥

une IA multimodale de pointe, open-source, puissante et gratuite pour tous.

Voir cette étonnante démonstration d'un robot utilisant le modèle Molmo pour détecter des objets.

Ils ont une version hébergée gratuite sur le site web pour essayer le modèle avec Image vers Texte et Texte vers Image. J'étais... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27 septembre 2024

hier @allen_ai a publié Malmo - une famille de modèles d'IA multimodaux ouverts et à la pointe de la technologie

le pointage fournit une explication naturelle fondée sur les pixels de l'image

lorsque vous demandez à Malmo de détecter ou de compter des objets, il marque les objets détectés avec des points

lien : https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26 septembre 2024

Molmo par @allen_ai - un modèle multimodal SOTA

🤗Modèles ouverts et données partiellement ouvertes
🤏7B et 72B tailles de modèles (+7B MoE avec 1B paramètres actifs)
🤯Benchmarks au-dessus de GPT-4V, Flash, etc.
🗣️Human La préférence pour le 72B est comparable à celle des meilleurs modèles de l'API
🧠PixMo, un ensemble de données de haute qualité pour le sous-titrage... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25 septembre 2024

Essai @allen_aiMolmo VLM sur Open GRID maintenant ! Les VLM comme Molmo apportent une riche couche de connaissances sémantiques aux robots, ce qui leur permet de répondre aux questions des utilisateurs et d'interpréter facilement des environnements complexes. Développez des solutions d'IA autonome avec des modèles d'IA de pointe sur le GRID dès aujourd'hui ! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Fondements de l'échelle (@ScaFoAI) 27 septembre 2024

Llama 3.2 n'a peut-être pas été la version multimodale la plus intéressante d'hier. 🤔 Molmo de @allen_ai surpasse Llama 3.2, disponible sous Apache 2.0 et dans l'UE, publiera ses données, créera des évaluations ELO personnalisées, et une architecture plus simple que mllama3.2 qui est vraisemblablement... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26 septembre 2024

Questions fréquemment posées sur Molmo

Molmo est un modèle d'IA multimodale à code source ouvert développé par l'Allen Institute for Artificial Intelligence (Ai2). Llama 3.2 et est disponible sous la licence Apache 2.0.

Molmo surpasse les performances Llama 3.2 et est conçu pour être plus efficace avec une architecture plus simple qui est vraisemblablement compatible avec l'attention flash.

Tous les modèles Molmo sont publiés sous la licence Apache 2.0 et sont disponibles sur Hugging Face.

Le Molmo se décline en quatre variantes principales : MolmoE-1B (un mélange de modèles d'experts), Molmo-7B-O, Molmo-7B-D et Molmo-72B. La version 72B est basée sur Qwen2-72B et utilise OpenAI CLIP comme base de vision.

Molmo se concentre sur la qualité des données plutôt que sur la quantité, en utilisant des descriptions d'images basées sur la parole pour des données d'entraînement de haute qualité provenant de l'ensemble de données PixMo.

Molmo peut comprendre les interfaces utilisateur et pointer ce qu'il voit. Il excelle dans le traitement simultané du texte et des images, ce qui permet aux utilisateurs de poser des questions sur les images pour des tâches telles que l'identification d'objets ou le comptage d'éléments dans une scène.

Molmo a été évalué sur 11 critères de référence académiques et à travers 325 231 comparaisons humaines par paire, démontrant ainsi ses performances et la préférence des utilisateurs.

Oui, vous pouvez expérimenter des modèles amusants et puissants tels que : Diffuseurs Image Outpaint , Llama3.2 , Qwen2.5

Experience Best AI Model Free Online In 8PixLabs

Plus de modèles d'IA postés récemment