Molmo AI: Modelo de Inteligencia Artificial Multimodal en Lenguaje Abierto SOTA 

Molmo Familia de modelos abiertos de lenguaje de visión desarrollados por el Allen Institute for AI. Fuente abierta

MolmoAI se basa en Qwen2

Molmo AI Free NoLogin en línea

Si encuentra un error, elija otro.

Chatbot de imágenes con Molmo-7B

Chatbot de imágenes con MolmoE-1B

Modelo de lenguaje visual - Molmo

ColPali, generador de consultas de ajuste fino ColPali es un nuevo enfoque muy interesante para la recuperación multimodal de documentos, cuyo objetivo es sustituir los recuperadores de documentos existentes, que a menudo se basan en un paso de OCR, por un enfoque multimodal de extremo a extremo.

Molmo :Pesos abiertos y datos abiertos
para modelos multimodales de última generación

Molmo es un modelo de IA multimodal de código abierto desarrollado por el Allen Institute for Artificial Intelligence (Ai2). Anunciado el 25 de septiembre de 2024, su objetivo es proporcionar capacidades de alto rendimiento manteniendo un tamaño de modelo significativamente más pequeño en comparación con otros sistemas de IA líderes, como GPT-4o de OpenAI y Gemini 1.5 Pro de Google. existen tres versiones del modelo de IA Molmo:

  • MolmoE-1B: Un modelo de mezcla de expertos con mil millones de parámetros activos.
  • Molmo-7B-O: La versión más accesible con 7.000 millones de parámetros.
  • Molmo-72B: La versión de mayor rendimiento con 72.000 millones de parámetros

MolmoE-1B: Un modelo de mezcla de expertos con mil millones de parámetros activos.

Molmo-7B-O: La versión más accesible con 7.000 millones de parámetros.

Molmo-72B: La versión de mayor rendimiento con 72.000 millones de parámetros

Comparación de la apertura de VLM Molmo AI supera a GPT-4o, Gemini 1.5 Pro y Claude 3.5

Caracterizamos la apertura de los VLM basándonos en dos atributos (pesos abiertos, datos abiertos y
) en tres componentes del modelo (el VLM y sus dos componentes preentrenados, la columna vertebral del LLM y el codificador de visión). Además de abierto frente a cerrado, utilizamos la etiqueta "destilado" para indicar que los datos utilizados para entrenar el VLM incluyen imágenes y texto generados por un VLM propietario diferente, lo que significa que el modelo no puede reproducirse sin depender del VLM propietario.

¿Qué se dice de PixelDance en las redes sociales?

Preguntas frecuentes sobre Molmo

Molmo es un modelo de IA multimodal de código abierto desarrollado por el Instituto Allen de Inteligencia Artificial (Ai2) que supera a Llama 3.2 y está disponible bajo licencia Apache 2.0.

Molmo supera Llama 3.2 y está diseñado para ser más eficiente con una arquitectura más simple que es presumiblemente compatible con la atención flash.

Todos los modelos Molmo se publican bajo licencia Apache 2.0 y están disponibles en Hugging Face.

Molmo se presenta en cuatro variantes principales: MolmoE-1B (un modelo de mezcla de expertos), Molmo-7B-O, Molmo-7B-D y Molmo-72B. La versión 72B se basa en Qwen2-72B y utiliza OpenAI CLIP como columna vertebral de visión.

Molmo se centra en la calidad de los datos más que en la cantidad, utilizando descripciones de imágenes basadas en el habla para obtener datos de entrenamiento de alta calidad del conjunto de datos PixMo.

Molmo puede entender las interfaces de usuario y señalar lo que ve. Destaca en el procesamiento simultáneo de texto e imágenes, lo que permite a los usuarios formular preguntas sobre imágenes para tareas como la identificación de objetos o el recuento de elementos dentro de una escena.

Molmo fue evaluado en 11 pruebas académicas y mediante 325.231 comparaciones humanas por pares, lo que demostró su rendimiento y la preferencia de los usuarios.

Sí , usted puede Experiencce diversión y modelos de gran alcance como : Difusores Imagen Outpaint , Llama3.2 , Qwen2.5

Experimente el mejor modelo de IA gratis en línea en 8PixLabs

Más modelos de IA publicados recientemente