Molmo AI: SOTA Multimodales KI-Modell für offene Sprachen 

Molmo Familie offener Vision-Sprachmodelle, entwickelt vom Allen Institute for AI. OpenSource

MolmoAI basiert auf Qwen2

Molmo AI Free NoLogin online

Wenn Sie auf einen Fehler stoßen, wählen Sie bitte eine andere Option.

Bild-Chatbot mit Molmo-7B

Bild-Chatbot mit MolmoE-1B

Visuelles Sprachmodell - Molmo

ColPali fine-tuning Query Generator ColPali ist ein sehr aufregender neuer Ansatz für die multimodale Dokumentensuche, der darauf abzielt, bestehende Dokumentensuchprogramme, die sich häufig auf einen OCR-Schritt stützen, durch einen multimodalen End-to-End-Ansatz zu ersetzen.

Molmo :Offene Gewichte und offene Daten
für modernste multimodale Modelle

Molmo ist ein neues Open-Source-Modell für multimodale KI, das vom Allen Institute for Artificial Intelligence (Ai2) entwickelt wurde. Angekündigt am 25. September 2024, zielt es darauf ab, hochleistungsfähige Fähigkeiten zu bieten und gleichzeitig eine deutlich kleinere Modellgröße im Vergleich zu anderen führenden KI-Systemen wie OpenAIs GPT-4o und Googles Gemini 1.5 Pro beizubehalten. es gibt drei Versionen des Molmo-KI-Modells:

  • MolmoE-1B: Ein Expertenmischungsmodell mit 1 Milliarde aktiver Parameter.
  • Molmo-7B-O: Die am besten zugängliche Version mit 7 Milliarden Parametern.
  • Molmo-72B: Die leistungsstärkste Version mit 72 Milliarden Parametern

MolmoE-1B: Ein Expertenmischungsmodell mit 1 Milliarde aktiver Parameter.

Molmo-7B-O: Die am besten zugängliche Version mit 7 Milliarden Parametern.

Molmo-72B: Die leistungsstärkste Version mit 72 Milliarden Parametern

VLM-Offenheitsvergleich Molmo AI übertrifft GPT-4o, Gemini 1.5 Pro & Claude 3.5

Wir charakterisieren die Offenheit von VLMs anhand von zwei Attributen (offene Gewichte, offene Daten und
Code) über drei Modellkomponenten hinweg (das VLM und seine beiden vortrainierten Komponenten, das LLM-Backbone und der Vision-Encoder). Zusätzlich zu "offen" vs. "geschlossen" verwenden wir die Kennzeichnung "destilliert", um darauf hinzuweisen, dass die zum Trainieren des VLM verwendeten Daten Bilder und Text enthalten, die von einem anderen, proprietären VLM generiert wurden, was bedeutet, dass das Modell nicht ohne Abhängigkeit von dem proprietären VLM reproduziert werden kann

Was wird in den sozialen Medien über PixelDance gesprochen?

Häufig gestellte Fragen über Molmo

Molmo ist ein quelloffenes, multimodales KI-Modell, das vom Allen Institute for Artificial Intelligence (Ai2) entwickelt wurde und bessere Leistungen als das Llama 3.2 und ist unter der Apache 2.0 Lizenz verfügbar.

Molmo schneidet besser ab Llama 3.2 und soll mit einer einfacheren Architektur, die vermutlich mit Flash Attention kompatibel ist, effizienter sein.

Alle Molmo-Modelle werden unter der Apache 2.0 Lizenz veröffentlicht und sind auf Hugging Face verfügbar.

Molmo gibt es in vier Hauptvarianten: MolmoE-1B (eine Mischung aus Expertenmodell), Molmo-7B-O, Molmo-7B-D und Molmo-72B. Die 72B-Version basiert auf Qwen2-72B und verwendet OpenAI CLIP als Vision-Backbone.

Molmo konzentriert sich eher auf die Qualität der Daten als auf die Quantität und verwendet sprachbasierte Bildbeschreibungen für hochwertige Trainingsdaten aus dem PixMo-Datensatz.

Molmo kann Benutzeroberflächen verstehen und auf das zeigen, was es sieht. Molmo kann sowohl Text als auch Bilder gleichzeitig verarbeiten, so dass Benutzer Fragen zu Bildern stellen können, um z. B. Objekte zu identifizieren oder Gegenstände in einer Szene zu zählen.

Molmo wurde anhand von 11 akademischen Benchmarks und 325.231 menschlichen Paarvergleichen evaluiert, um seine Leistung und Benutzerpräferenz zu demonstrieren.

Ja, Sie können spaßige und leistungsstarke Modelle erleben wie: Diffusoren Image Outpaint , Llama3.2 , Qwen2.5

Erleben Sie das beste AI-Modell kostenlos online in 8PixLabs

Mehr AI Model Post kürzlich