Molmo AI:SOTA多模態開放語言AI模型 

艾倫人工智慧研究所開發的 Molmo 系列開放式視覺語言模型。開源

MolmoAI 基於 Qwen2

Molmo AI 免費無需登入在線

如果遇到錯誤,請選擇另一個

使用 Molmo-7B 的影像聊天機器人

使用 MolmoE-1B 的影像聊天機器人

視覺語言模型—Molmo

ColPali 微調查詢產生器 ColPali 是一種非常令人興奮的多模式文件檢索新方法,旨在以端對端多模式方法取代通常依賴 OCR 步驟的現有文件檢索器。

Molmo:開放權重和開放數據
適用於最先進的多模態模型

Molmo 是由艾倫人工智慧研究所(Ai2)開發的新發布的開源多模式 AI 模型。它於 2024 年 9 月 25 日發布,旨在提供高效能功能,同時與其他領先的 AI 系統(例如 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro)相比,保持明顯較小的模型尺寸。 Molmo ai 模型有三個版本:

  • 莫爾莫E-1B:具有 10 億個活躍參數的專家混合模型。
  • 莫爾莫-7B-O:最容易存取的版本,具有 70 億個參數。
  • 莫爾莫-72B:性能最佳的版本,具有 720 億個參數

莫爾莫E-1B:具有 10 億個活躍參數的專家混合模型。

莫爾莫-7B-O:最容易存取的版本,具有 70 億個參數。

莫爾莫-72B:性能最佳的版本,具有 720 億個參數

VLM 開放度比較 Molmo AI 優於 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5

我們根據兩個屬性(開放權重、開放資料和
程式碼)跨越三個模型組件(VLM 及其兩個預訓練組件、LLM 主幹和視覺編碼器)。除了開放與封閉之外,我們還使用「精煉」標籤來表示用於訓練 VLM 的資料包括由不同的專有 VLM 生成的圖像和文本,這意味著如果不依賴專有 VLM,就無法複製該模型

人們在社群媒體上談論 PixelDance 是什麼

關於 Molmo 的常見問題

Molmo 是由艾倫人工智慧研究所 (Ai2) 開發的開源多模態 AI 模型,其表現優於 駱駝 3.2 並在 Apache 2.0 許可下可用。

Molmo 表現優異 駱駝 3.2 且設計得更高效,具有更簡單的架構,大概與閃存注意力相容。

所有 Molmo 型號均根據 Apache 2.0 許可證發布,並可在 Hugging Face 上取得。

Molmo 有四種主要變體:MolmoE-1B(專家模型混合)、Molmo-7B-O、Molmo-7B-D 和 Molmo-72B。 72B 版本基於 Qwen2-72B,並使用 OpenAI CLIP 作為其視覺主幹。

Molmo 注重資料的品質而不是數量,使用基於語音的影像描述來獲取來自 PixMo 資料集的高品質訓練資料。

Molmo 可以理解使用者介面並指向它所看到的內容。它擅長同時處理文字和圖像,允許使用者針對圖像提出問題,以執行諸如物件識別或計數場景內的項目等任務。

Molmo 經過 11 個學術基準和 325,231 次人工成對比較進行評估,展示了其性能和用戶偏好。

是的,您可以體驗有趣和強大的模型,例如: 擴散器 影像輸出 , Llama3.2 , Qwen2.5

免費線上體驗最佳 AI 模型 8PixLabs

最近有更多 AI 模型發布