Molmo AI：SOTA多模態開放語言AI模型

艾倫人工智慧研究所開發的 Molmo 系列開放式視覺語言模型。開源

MolmoAI 基於 Qwen2

Molmo AI 免費無需登入在線

如果遇到錯誤，請選擇另一個

圖片聊天機器人
圖片聊天機器人
視覺語言模型
文件檢索

使用 Molmo-7B 的影像聊天機器人

使用 MolmoE-1B 的影像聊天機器人

視覺語言模型—Molmo

ColPali 微調查詢產生器 ColPali 是一種非常令人興奮的多模式文件檢索新方法，旨在以端對端多模式方法取代通常依賴 OCR 步驟的現有文件檢索器。

Molmo：開放權重和開放數據
適用於最先進的多模態模型

Molmo 是由艾倫人工智慧研究所（Ai2）開發的新發布的開源多模式 AI 模型。它於 2024 年 9 月 25 日發布，旨在提供高效能功能，同時與其他領先的 AI 系統（例如 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro）相比，保持明顯較小的模型尺寸。 Molmo ai 模型有三個版本：

莫爾莫E-1B：具有 10 億個活躍參數的專家混合模型。
莫爾莫-7B-O：最容易存取的版本，具有 70 億個參數。
莫爾莫-72B：性能最佳的版本，具有 720 億個參數

莫爾莫E-1B：具有 10 億個活躍參數的專家混合模型。

莫爾莫-7B-O：最容易存取的版本，具有 70 億個參數。

莫爾莫-72B：性能最佳的版本，具有 720 億個參數

VLM 開放度比較 Molmo AI 優於 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5

我們根據兩個屬性（開放權重、開放資料和
程式碼）跨越三個模型組件（VLM 及其兩個預訓練組件、LLM 主幹和視覺編碼器）。除了開放與封閉之外，我們還使用「精煉」標籤來表示用於訓練 VLM 的資料包括由不同的專有 VLM 生成的圖像和文本，這意味著如果不依賴專有 VLM，就無法複製該模型

人們在社群媒體上談論 PixelDance 是什麼

Molmo 來自 @allen_ai – 開源 SoTA 多模態（Vision）語言模型，擊敗 Claude 3.5 Sonnet、GPT4V 並與 GPT4o 相媲美🔥

他們發布了四個模型檢查點：

1. MolmoE-1B，專家模型的混合體，其中 1B（主動）7B（總）
2. Molmo-7B-O，最開放的 7B 模型
3.… pic.twitter.com/9hpARh0GYT
— Vaibhav (VB) Srivastav (@reach_vb) 2024 年 9 月 25 日

認識 MOLMO🔥🔥

開源、強大且對所有人免費的尖端多模式人工智慧。

觀看這個機器人使用 Molmo 模型檢測物體的驚人演示。

他們在網站上有一個免費託管版本，可以嘗試「圖像轉文字」和「文字轉圖像」模型。我… pic.twitter.com/Qx7hp1rtcb
— Prashant (@Prashant_1722) 2024 年 9 月 27 日

昨天 @allen_ai 發布了 Malmo – 一套先進的開放式多模態 AI 模型

指向提供了基於圖像像素的自然解釋

當你要求 Malmo 偵測或計數物體時，它會用點標記偵測到的物體

關聯： https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
— SkalskiP (@skalskip92) 2024 年 9 月 26 日

Molmo 來自 @allen_ai – SOTA 多模態模型

🤗開放模型和部分開放數據
🤏7B 和 72B 模型尺寸（+7B MoE 和 1B 活動參數）
🤯高於 GPT-4V、Flash 等的基準測試
🗣️ 人類偏好為 72B，與頂級 API 模型相當
🧠PixMo，一個用於字幕的高品質資料集… pic.twitter.com/faqvCkAmsb
— Omar Sanseviero（@osanseviero） 2024 年 9 月 25 日

試用 @allen_ai的 Molmo VLM 現已在 Open GRID 上線！ Molmo 等 VLM 為機器人帶來了豐富的語義知識層——使它們能夠輕鬆響應用戶查詢並解釋複雜的環境。立即使用 GRID 上最先進的 AI 模型擴展自主 AI 解決方案！ https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
— Scaled Foundations（@ScaFoAI） 2024 年 9 月 27 日

Llama 3.2 可能不是昨天最有趣的多模式版本。 🤔 Molmo 來自 @allen_ai 性能優於 Llama 3.2，可在 Apache 2.0 和歐盟使用，將發布其數據，創建自定義 ELO 評估，以及比 mllama3.2 更簡單的架構，大概是… pic.twitter.com/du63zXjQcN
— Philipp Schmid（@_philschmid） 2024 年 9 月 26 日

關於 Molmo 的常見問題

Molmo 是由艾倫人工智慧研究所 (Ai2) 開發的開源多模態 AI 模型，其表現優於駱駝 3.2 並在 Apache 2.0 許可下可用。

Molmo 表現優異駱駝 3.2 且設計得更高效，具有更簡單的架構，大概與閃存注意力相容。

所有 Molmo 型號均根據 Apache 2.0 許可證發布，並可在 Hugging Face 上取得。

Molmo 有四種主要變體：MolmoE-1B（專家模型混合）、Molmo-7B-O、Molmo-7B-D 和 Molmo-72B。 72B 版本基於 Qwen2-72B，並使用 OpenAI CLIP 作為其視覺主幹。

Molmo 注重資料的品質而不是數量，使用基於語音的影像描述來獲取來自 PixMo 資料集的高品質訓練資料。

Molmo 可以理解使用者介面並指向它所看到的內容。它擅長同時處理文字和圖像，允許使用者針對圖像提出問題，以執行諸如物件識別或計數場景內的項目等任務。

Molmo 經過 11 個學術基準和 325,231 次人工成對比較進行評估，展示了其性能和用戶偏好。

是的，您可以體驗有趣和強大的模型，例如：擴散器影像輸出 , Llama3.2 , Qwen2.5

免費線上體驗最佳 AI 模型 8PixLabs

最近有更多 AI 模型發布