Molmo AI：SOTA 多模态开放语言人工智能模型

艾伦人工智能研究所开发的开放式视觉语言模型 Molmo 系列。开放源代码

MolmoAI 基于 Qwen2

Molmo AI 免费在线无登录

如果遇到错误，请重新选择

图像聊天机器人
图像聊天机器人
视觉语言模型
文件检索

使用 Molmo-7B 的图像聊天机器人

使用 MolmoE-1B 的图像聊天机器人

视觉语言模型--Molmo

ColPali 微调查询生成器 ColPali 是一种令人兴奋的多模态文档检索新方法，旨在用端到端多模态方法取代通常依赖 OCR 步骤的现有文档检索器。

Molmo :开放权重和开放数据
为最先进的多模式模型提供支持

Molmo 是艾伦人工智能研究所（Ai2）最新发布的开源多模态人工智能模型。它于 2024 年 9 月 25 日发布，旨在提供高性能功能，同时保持与其他领先人工智能系统（如 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro）相比小得多的模型尺寸：

MolmoE-1B:具有 10 亿个有效参数的专家混合模型。
谟尔莫-7B-O:最便捷的版本，提供 70 亿个参数。
Molmo-72B:拥有 720 亿个参数的最高性能版本

MolmoE-1B:具有 10 亿个有效参数的专家混合模型。

谟尔莫-7B-O:最便捷的版本，提供 70 亿个参数。

Molmo-72B:拥有 720 亿个参数的最高性能版本

VLM 开放性比较 Molmo AI 优于 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5

我们根据两个属性（开放权重、开放数据和开放性）来描述 VLM 的开放性。
代码）跨越三个模型组件（VLM 及其两个预训练组件、LLM 骨干和视觉编码器）。除了开放与封闭之外，我们还使用 "蒸馏 "标签来表示用于训练 VLM 的数据包括由不同的专有 VLM 生成的图像和文本，这意味着如果不依赖于专有 VLM，则无法复制模型

社交媒体上人们是如何谈论 PixelDance 的？

莫尔莫 @allen_ai - 开源 SoTA 多模态（视觉）语言模型，优于 Claude 3.5 Sonnet 和 GPT4V，并可与 GPT4o 媲美 🔥

他们发布了四个示范检查点：

1.MolmoE-1B，1B（活性）7B（总量）的专家混合模型
2.Molmo-7B-O，最开放的 7B 模型
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 2024 年 9 月 25 日

认识 MOLMO 🔥🔥

尖端的多模态人工智能，开源、功能强大，而且对所有人免费。

请看机器人使用 Molmo 模型探测物体的精彩演示。

他们的网站上有一个免费的托管版本，可以试用 "图像到文本 "和 "文本到图像 "模式。我... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 2024 年 9 月 27 日

昨天 @allen_ai 发布马尔默--开放式先进多模态人工智能模型系列

指向性提供了以图像像素为基础的自然解释

当您要求 Malmo 检测或计算物体时，它会用点数标记检测到的物体

链接： https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 2024 年 9 月 26 日

莫尔莫 @allen_ai - 一个 SOTA 多模式模型

🤗 开放模型和部分开放数据
🤏 7B 和 72B 模型大小（+7B MoE，1B 有效参数）
高于 GPT-4V、Flash 等的基准测试
🗣️ 72B 的人类偏好与顶级 API 型号相当
🧠PixMo, 一个用于字幕的高质量数据集... pic.twitter.com/faqvCkAmsb
- 奥马尔-桑塞维罗 (@osanseviero) 2024 年 9 月 25 日

试用 @allen_ai的 Molmo VLM 正在开放式全球资源数据库（Open GRID）上运行！像 Molmo 这样的 VLM 为机器人带来了丰富的语义知识层，使它们能够轻松响应用户询问并解释复杂环境。现在就在 GRID 上使用最先进的人工智能模型来扩展自主人工智能解决方案！ https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Scaled Foundations (@ScaFoAI) 2024 年 9 月 27 日

Llama 3.2 可能不是昨天最有趣的多模态版本。来自 @allen_ai Llama 3.2 在 Apache 2.0 下可用，在欧盟，将发布他们的数据，创建自定义的 ELO evals，以及比 mllama3.2 更简单的架构，据推测... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 2024 年 9 月 26 日

关于 Molmo 的常见问题

Molmo 是艾伦人工智能研究所（Ai2）开发的一种开源多模态人工智能模型，其性能优于其他人工智能模型。拉马 3.2 并根据 Apache 2.0 许可提供。

谟尔莫的表现优于拉马 3.2 其设计更高效，架构更简单，可能与闪存注意力兼容。

所有 Molmo 模型均根据 Apache 2.0 许可发布，可在 Hugging Face 上获取。

Molmo 主要有四种变体：MolmoE-1B（混合专家模型）、Molmo-7B-O、Molmo-7B-D 和 Molmo-72B。72B 版本基于 Qwen2-72B，使用 OpenAI CLIP 作为视觉骨干。

Molmo 注重数据的质量而非数量，它使用基于语音的图像描述，从 PixMo 数据集中获取高质量的训练数据。

Molmo 能够理解用户界面，并指出它所看到的东西。它擅长同时处理文本和图像，允许用户就图像提出问题，以完成物体识别或计算场景中的物品等任务。

Molmo 通过 11 项学术基准和 325 231 次人类配对比较进行了评估，证明了其性能和用户偏好。

是的，您可以体验到有趣而强大的模型，例如：.........：扩散器图像外喷涂 , Llama3.2 , Qwen2.5

免费在线体验最佳人工智能模型 8PixLabs

最近发布的更多人工智能模型