Molmo AI : Modèle d'IA multimodale en langage ouvert SOTA 

Molmo Famille de modèles ouverts de langage de vision développés par l'Allen Institute for AI. OpenSource

MolmoAI est basé sur Qwen2

Molmo AI Free NoLogin online

Si vous rencontrez une erreur, veuillez en choisir une autre

Chatbot d'images avec Molmo-7B

Chatbot d'images avec MolmoE-1B

Modèle de langage visuel - Molmo

ColPali fine-tuning Query Generator ColPali est une nouvelle approche très intéressante de la recherche documentaire multimodale qui vise à remplacer les chercheurs de documents existants, qui reposent souvent sur une étape d'OCR, par une approche multimodale de bout en bout.

Molmo :Poids et données ouverts
pour des modèles multimodaux de pointe

Molmo est un nouveau modèle d'IA multimodale open-source développé par l'Allen Institute for Artificial Intelligence (Ai2). Annoncé le 25 septembre 2024, il vise à fournir des capacités de haute performance tout en maintenant une taille de modèle significativement plus petite par rapport à d'autres systèmes d'IA de premier plan, tels que GPT-4o d'OpenAI et Gemini 1.5 Pro de Google. Il existe trois versions du modèle d'IA Molmo :

  • MolmoE-1B: Un modèle de mélange d'experts avec 1 milliard de paramètres actifs.
  • Molmo-7B-O: La version la plus accessible avec 7 milliards de paramètres.
  • Molmo-72B: La version la plus performante avec 72 milliards de paramètres

MolmoE-1B: Un modèle de mélange d'experts avec 1 milliard de paramètres actifs.

Molmo-7B-O: La version la plus accessible avec 7 milliards de paramètres.

Molmo-72B: La version la plus performante avec 72 milliards de paramètres

Comparaison de l'ouverture du VLM Molmo AI surpasse GPT-4o, Gemini 1.5 Pro et Claude 3.5

Nous caractérisons l'ouverture des VLM sur la base de deux attributs (poids ouverts, données ouvertes, et
code) à travers trois composants du modèle (le VLM et ses deux composants pré-entraînés, l'épine dorsale LLM et l'encodeur de vision). En plus de la distinction entre ouvert et fermé, nous utilisons l'étiquette "distillé" pour indiquer que les données utilisées pour entraîner le VLM comprennent des images et du texte générés par un VLM propriétaire différent, ce qui signifie que le modèle ne peut pas être reproduit sans dépendre du VLM propriétaire.

Qu'est-ce que les gens disent de PixelDance dans les médias sociaux ?

Questions fréquemment posées sur Molmo

Molmo est un modèle d'IA multimodale à code source ouvert développé par l'Allen Institute for Artificial Intelligence (Ai2). Llama 3.2 et est disponible sous la licence Apache 2.0.

Molmo surpasse les performances Llama 3.2 et est conçu pour être plus efficace avec une architecture plus simple qui est vraisemblablement compatible avec l'attention flash.

Tous les modèles Molmo sont publiés sous la licence Apache 2.0 et sont disponibles sur Hugging Face.

Le Molmo se décline en quatre variantes principales : MolmoE-1B (un mélange de modèles d'experts), Molmo-7B-O, Molmo-7B-D et Molmo-72B. La version 72B est basée sur Qwen2-72B et utilise OpenAI CLIP comme base de vision.

Molmo se concentre sur la qualité des données plutôt que sur la quantité, en utilisant des descriptions d'images basées sur la parole pour des données d'entraînement de haute qualité provenant de l'ensemble de données PixMo.

Molmo peut comprendre les interfaces utilisateur et pointer ce qu'il voit. Il excelle dans le traitement simultané du texte et des images, ce qui permet aux utilisateurs de poser des questions sur les images pour des tâches telles que l'identification d'objets ou le comptage d'éléments dans une scène.

Molmo a été évalué sur 11 critères de référence académiques et à travers 325 231 comparaisons humaines par paire, démontrant ainsi ses performances et la préférence des utilisateurs.

Oui, vous pouvez expérimenter des modèles amusants et puissants tels que : Diffuseurs Image Outpaint , Llama3.2 , Qwen2.5

Experience Best AI Model Free Online In 8PixLabs

Plus de modèles d'IA postés récemment