Molmo AI: SOTAマルチモーダル・オープン言語AIモデル 

Molmo アレンAI研究所が開発したオープンな視覚言語モデルのファミリー。オープンソース

MolmoAIは以下に基づいている。 クウェン2

Molmo AI Free NoLogin online

エラーが発生した場合は、別のものを選択してください。

Molmo-7Bを使ったイメージチャットボット

MolmoE-1Bによるイメージチャットボット

視覚言語モデル - Molmo

ColPali微調整クエリジェネレータ ColPaliはマルチモーダル文書検索への非常にエキサイティングな新しいアプローチであり、OCRステップに依存することの多い既存の文書検索を、エンドツーエンドのマルチモーダルアプローチに置き換えることを目的としている。

モルモ:オープンウエイトとオープンデータ
最先端のマルチモーダルモデルのために

Molmo(モルモ)は、アレン人工知能研究所(Ai2)が新たに開発したオープンソースのマルチモーダルAIモデルである。2024年9月25日に発表されたMolmoは、OpenAIのGPT-4oやGoogleのGemini 1.5 Proなど、他の主要なAIシステムと比較してモデルサイズを大幅に縮小しながら、高性能な機能を提供することを目指しています:

  • モルモE-1B:10億のアクティブパラメータを持つ専門家の混合モデル。
  • モルモ7B-O:70億のパラメータを持つ最もアクセスしやすいバージョン。
  • モルモ72B:720億のパラメータを持つトップパフォーマンスバージョン

モルモE-1B:10億のアクティブパラメータを持つ専門家の混合モデル。

モルモ7B-O:70億のパラメータを持つ最もアクセスしやすいバージョン。

モルモ72B:720億のパラメータを持つトップパフォーマンスバージョン

VLM開放度比較 Molmo AIがGPT-4o、ジェミニ1.5プロ、クロード3.5を上回る

我々は、2つの属性(オープンウエイト、オープンデータ、オープンデータ)に基づいてVLMのオープン性を特徴付ける。
コード)を3つのモデル・コンポーネント(VLMとその2つの事前学習済みコンポーネント、LLMバックボーンとビジョン・エンコーダ)にまたがって使用している。オープンかクローズドかに加えて、「distilled」ラベルは、VLMの訓練に使用されたデータに、別の独自のVLMによって生成された画像とテキストが含まれていることを示すために使用します。

ソーシャルメディアにおけるPixelDanceの話題とは?

モルモについてよくある質問

Molmoは、アレン人工知能研究所(Ai2)が開発したオープンソースのマルチモーダルAIモデルであり、以下のような優れた性能を発揮する。 ラマ 3.2 Apache 2.0ライセンスで提供されている。

モルモが上回る ラマ 3.2 そして、よりシンプルなアーキテクチャでより効率的に設計されており、おそらくフラッシュアテンションと互換性がある。

モルモのモデルはすべてアパッチ2.0ライセンスで公開されており、ハギング・フェイスで入手できる。

Molmoには主に4つのバリエーションがある:MolmoE-1B(エキスパートモデルの混合)、Molmo-7B-O、Molmo-7B-D、Molmo-72Bである。72BバージョンはQwen2-72Bをベースにしており、ビジョンのバックボーンとしてOpenAI CLIPを使用しています。

Molmoは、PixMoデータセットの高品質な学習データに対して、音声ベースの画像説明を使用することで、データの量よりも質に重点を置いている。

モルモはユーザーインターフェースを理解し、見たものを指差すことができる。モルモは、テキストと画像を同時に処理することに優れており、オブジェクトの識別やシーン内のアイテムのカウントといったタスクのために、ユーザーが画像について質問することができる。

Molmoは11のアカデミックベンチマークと325,231の人間によるペアワイズ比較で評価され、その性能とユーザーの好みが実証された。

そう、楽しくてパワフルなモデルを体験できるのだ: ディフューザー イメージ・アウトペイント , ラマ3.2 , クウェン2.5

最高のAIモデルをオンラインで無料体験 8PixLabs

最近のAIモデルポスト