Molmo AI: Modelo de Inteligencia Artificial Multimodal en Lenguaje Abierto SOTA

Molmo Familia de modelos abiertos de lenguaje de visión desarrollados por el Allen Institute for AI. Fuente abierta

MolmoAI se basa en Qwen2

Molmo AI Free NoLogin en línea

Si encuentra un error, elija otro.

Chatbot de imagen
Chatbot de imagen
Modelo de lenguaje visual
Recuperación de documentos

Chatbot de imágenes con Molmo-7B

Chatbot de imágenes con MolmoE-1B

Modelo de lenguaje visual - Molmo

ColPali, generador de consultas de ajuste fino ColPali es un nuevo enfoque muy interesante para la recuperación multimodal de documentos, cuyo objetivo es sustituir los recuperadores de documentos existentes, que a menudo se basan en un paso de OCR, por un enfoque multimodal de extremo a extremo.

Molmo :Pesos abiertos y datos abiertos
para modelos multimodales de última generación

Molmo es un modelo de IA multimodal de código abierto desarrollado por el Allen Institute for Artificial Intelligence (Ai2). Anunciado el 25 de septiembre de 2024, su objetivo es proporcionar capacidades de alto rendimiento manteniendo un tamaño de modelo significativamente más pequeño en comparación con otros sistemas de IA líderes, como GPT-4o de OpenAI y Gemini 1.5 Pro de Google. existen tres versiones del modelo de IA Molmo:

MolmoE-1B: Un modelo de mezcla de expertos con mil millones de parámetros activos.
Molmo-7B-O: La versión más accesible con 7.000 millones de parámetros.
Molmo-72B: La versión de mayor rendimiento con 72.000 millones de parámetros

MolmoE-1B: Un modelo de mezcla de expertos con mil millones de parámetros activos.

Molmo-7B-O: La versión más accesible con 7.000 millones de parámetros.

Molmo-72B: La versión de mayor rendimiento con 72.000 millones de parámetros

Comparación de la apertura de VLM Molmo AI supera a GPT-4o, Gemini 1.5 Pro y Claude 3.5

Caracterizamos la apertura de los VLM basándonos en dos atributos (pesos abiertos, datos abiertos y
) en tres componentes del modelo (el VLM y sus dos componentes preentrenados, la columna vertebral del LLM y el codificador de visión). Además de abierto frente a cerrado, utilizamos la etiqueta "destilado" para indicar que los datos utilizados para entrenar el VLM incluyen imágenes y texto generados por un VLM propietario diferente, lo que significa que el modelo no puede reproducirse sin depender del VLM propietario.

¿Qué se dice de PixelDance en las redes sociales?

Molmo por @allen_ai - Modelo de lenguaje multimodal (visión) SoTA de código abierto, que supera a Claude 3.5 Sonnet, GPT4V y es comparable a GPT4o 🔥

Lanzan cuatro modelos de puntos de control:

1. MolmoE-1B, un modelo de mezcla de expertos con 1B (activo) 7B (total)
2. Molmo-7B-O, modelo 7B más abierto
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 25 de septiembre de 2024

Conoce MOLMO 🔥🔥🔥

IA multimodal de vanguardia, de código abierto, potente y gratuita para todos.

vea esta asombrosa demostración de un robot que utiliza el modelo Molmo para detectar objetos.

Tienen una versión gratuita alojada en el sitio web para probar el modelo con Imagen a Texto y Texto a Imagen. Yo estaba... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27 de septiembre de 2024

ayer @allen_ai liberado Malmo: una familia de modelos abiertos de IA multimodal de última generación

señalar ofrece una explicación natural basada en los píxeles de la imagen

cuando pida a Malmo que detecte o cuente objetos, marcará los objetos detectados con puntos

enlace: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26 de septiembre de 2024

Molmo por @allen_ai - un modelo multimodal SOTA

🤗Modelos abiertos y datos parcialmente abiertos
🤏7B y 72B tamaños de modelo (+7B MoE con 1B params activos)
🤯Benchmarks por encima de GPT-4V, Flash, etc.
🗣️Human Preferencia del 72B a la altura de los mejores modelos API
🧠PixMo, un conjunto de datos de alta calidad para... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25 de septiembre de 2024

Prueba @allen_aide Molmo en Open GRID. Los VLM como Molmo aportan una rica capa de conocimiento semántico a los robots, lo que les permite responder a las consultas de los usuarios e interpretar entornos complejos con facilidad. Amplíe hoy mismo las soluciones de IA autónoma con modelos de IA de última generación en GRID. https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Scaled Foundations (@ScaFoAI) 27 de septiembre de 2024

Llama 3.2 podría no haber sido el lanzamiento multimodal más interesante de ayer. 🤔 Molmo de @allen_ai supera a Llama 3.2, disponible bajo Apache 2.0 y en la UE, liberará sus datos, creará evals ELO personalizadas, y una arquitectura más simple que mllama3.2 que presumiblemente... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26 de septiembre de 2024

Preguntas frecuentes sobre Molmo

Molmo es un modelo de IA multimodal de código abierto desarrollado por el Instituto Allen de Inteligencia Artificial (Ai2) que supera a Llama 3.2 y está disponible bajo licencia Apache 2.0.

Molmo supera Llama 3.2 y está diseñado para ser más eficiente con una arquitectura más simple que es presumiblemente compatible con la atención flash.

Todos los modelos Molmo se publican bajo licencia Apache 2.0 y están disponibles en Hugging Face.

Molmo se presenta en cuatro variantes principales: MolmoE-1B (un modelo de mezcla de expertos), Molmo-7B-O, Molmo-7B-D y Molmo-72B. La versión 72B se basa en Qwen2-72B y utiliza OpenAI CLIP como columna vertebral de visión.

Molmo se centra en la calidad de los datos más que en la cantidad, utilizando descripciones de imágenes basadas en el habla para obtener datos de entrenamiento de alta calidad del conjunto de datos PixMo.

Molmo puede entender las interfaces de usuario y señalar lo que ve. Destaca en el procesamiento simultáneo de texto e imágenes, lo que permite a los usuarios formular preguntas sobre imágenes para tareas como la identificación de objetos o el recuento de elementos dentro de una escena.

Molmo fue evaluado en 11 pruebas académicas y mediante 325.231 comparaciones humanas por pares, lo que demostró su rendimiento y la preferencia de los usuarios.

Sí , usted puede Experiencce diversión y modelos de gran alcance como : Difusores Imagen Outpaint , Llama3.2 , Qwen2.5

Experimente el mejor modelo de IA gratis en línea en 8PixLabs

Más modelos de IA publicados recientemente