Molmo AI: SOTAマルチモーダル・オープン言語AIモデル

Molmo アレンAI研究所が開発したオープンな視覚言語モデルのファミリー。オープンソース

MolmoAIは以下に基づいている。クウェン2

Molmo AI 無料 NoLogin オンライン

エラーが発生した場合は、別のものを選択してください。

イメージチャットボット
イメージチャットボット
視覚言語モデル
文書検索

Molmo-7Bを使ったイメージチャットボット

MolmoE-1Bによるイメージチャットボット

視覚言語モデル - Molmo

ColPali微調整クエリジェネレータ ColPaliはマルチモーダル文書検索への非常にエキサイティングな新しいアプローチであり、OCRステップに依存することの多い既存の文書検索を、エンドツーエンドのマルチモーダルアプローチに置き換えることを目的としている。

モルモ：オープンウエイトとオープンデータ
最先端のマルチモーダルモデルのために

Molmo（モルモ）は、アレン人工知能研究所（Ai2）が新たに開発したオープンソースのマルチモーダルAIモデルである。2024年9月25日に発表されたMolmoは、OpenAIのGPT-4oやGoogleのGemini 1.5 Proなど、他の主要なAIシステムと比較してモデルサイズを大幅に縮小しながら、高性能な機能を提供することを目指しています：

モルモE-1B:10億のアクティブパラメータを持つ専門家の混合モデル。
モルモ7B-O:70億のパラメータを持つ最もアクセスしやすいバージョン。
モルモ72B:720億のパラメータを持つトップパフォーマンスバージョン

モルモE-1B:10億のアクティブパラメータを持つ専門家の混合モデル。

モルモ7B-O:70億のパラメータを持つ最もアクセスしやすいバージョン。

モルモ72B:720億のパラメータを持つトップパフォーマンスバージョン

VLM開放度比較 Molmo AIがGPT-4o、ジェミニ1.5プロ、クロード3.5を上回る

我々は、2つの属性（オープンウエイト、オープンデータ、オープンデータ）に基づいてVLMのオープン性を特徴付ける。
コード）を3つのモデル・コンポーネント（VLMとその2つの事前学習済みコンポーネント、LLMバックボーンとビジョン・エンコーダ）にまたがって使用している。オープンかクローズドかに加えて、「distilled」ラベルは、VLMの訓練に使用されたデータに、別の独自のVLMによって生成された画像とテキストが含まれていることを示すために使用します。

ソーシャルメディアにおけるPixelDanceの話題とは？

モルモ @allen_ai - オープンソースのSoTAマルチモーダル（視覚）言語モデル、クロード3.5ソネット、GPT4Vを上回り、GPT4oと同等 🔥。

チェックポイントは4つ：

1.MolmoE-1B、1B（アクティブ）7B（トータル）のエキスパート混合モデル
2.Molmo-7B-O、最もオープンな7Bモデル
3.... pic.twitter.com/9hpARh0GYT
- ヴァイバフ（VB）・スリヴァスタフ (@reach_vb) 2024年9月25日

モルモとの出会い 🔥 🔥 🔥 🔥 🔥

最先端のマルチモーダルAIは、オープンソースで、パワフルで、誰でも無料で利用できる。

モルモモデルを使って物体を検出するロボットの驚くべきデモをご覧ください。

このウェブサイトには、画像からテキスト、テキストから画像というモデルを試すための無料ホスティング・バージョンがある。私は... pic.twitter.com/Qx7hp1rtcb
- プラシャント (@Prashant_1722) 2024年9月27日

昨日 @allen_ai オープンな最先端のマルチモーダルAIモデル群「Malmo」を発表

ポインティングは、イメージピクセルに基づいた自然な説明を提供する

マルモにオブジェクトの検出やカウントを依頼すると、検出されたオブジェクトにポイントが付けられます。

リンク https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- スカルスキーP (@skalskip92) 2024年9月26日

モルモ @allen_ai - SOTAマルチモーダルモデル

🤗オープンモデルと一部オープンデータ
7B と 72B のモデルサイズ（+7B MoE、1B のアクティブ・パラメータ付き）
🤯GPT-4V、Flashなどの上のベンチマーク
🗣️APIトップモデルと肩を並べる72Bの人間嗜好
キャプション用高品質データセット「🧠PixMo... pic.twitter.com/faqvCkAmsb
- オマール・サンセビエロ (@osanseviero) 2024年9月25日

試す @allen_aiのMolmo VLMがOpen GRIDに登場しました！MolmoのようなVLMは、ロボットに豊富な意味的知識のレイヤをもたらし、ユーザからのクエリに応答し、複雑な環境を簡単に解釈することを可能にします。今すぐGRID上で最先端のAIモデルを使って自律型AIソリューションをスケールしてください！ https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- スケールド・ファウンデーションズ (@ScaFoAI) 2024年9月27日

Llama 3.2は、昨日のマルチモーダルリリースの中で最も興味深いものではなかったかもしれない。モルモ @allen_ai Llama3.2を凌駕し、Apache2.0で利用可能で、EUでは、データを公開し、カスタムELOエバルを作成し、おそらくmllama3.2よりもシンプルなアーキテクチャ... pic.twitter.com/du63zXjQcN
- フィリップ・シュミット (@_philschmid) 2024年9月26日

モルモについてよくある質問

Molmoは、アレン人工知能研究所（Ai2）が開発したオープンソースのマルチモーダルAIモデルであり、以下のような優れた性能を発揮する。ラマ 3.2 Apache 2.0ライセンスで提供されている。

モルモが上回るラマ 3.2 そして、よりシンプルなアーキテクチャでより効率的に設計されており、おそらくフラッシュアテンションと互換性がある。

モルモのモデルはすべてアパッチ2.0ライセンスで公開されており、ハギング・フェイスで入手できる。

Molmoには主に4つのバリエーションがある：MolmoE-1B（エキスパートモデルの混合）、Molmo-7B-O、Molmo-7B-D、Molmo-72Bである。72BバージョンはQwen2-72Bをベースにしており、ビジョンのバックボーンとしてOpenAI CLIPを使用しています。

Molmoは、PixMoデータセットの高品質な学習データに対して、音声ベースの画像説明を使用することで、データの量よりも質に重点を置いている。

モルモはユーザーインターフェースを理解し、見たものを指差すことができる。モルモは、テキストと画像を同時に処理することに優れており、オブジェクトの識別やシーン内のアイテムのカウントといったタスクのために、ユーザーが画像について質問することができる。

Molmoは11のアカデミックベンチマークと325,231の人間によるペアワイズ比較で評価され、その性能とユーザーの好みが実証された。

そう、楽しくてパワフルなモデルを体験できるのだ：ディフューザーイメージ・アウトペイント , ラマ3.2 , クウェン2.5

最高のAIモデルをオンラインで無料体験 8PixLabs

最近のAIモデルポスト