Molmo AI: SOTA Multimodales KI-Modell für offene Sprachen

Molmo Familie offener Vision-Sprachmodelle, entwickelt vom Allen Institute for AI. OpenSource

MolmoAI basiert auf Qwen2

Molmo AI Free NoLogin online

Wenn Sie auf einen Fehler stoßen, wählen Sie bitte eine andere Option.

Bild-Chatbot
Bild-Chatbot
Visuelles Sprachmodell
Abrufen von Dokumenten

Bild-Chatbot mit Molmo-7B

Bild-Chatbot mit MolmoE-1B

Visuelles Sprachmodell - Molmo

ColPali fine-tuning Query Generator ColPali ist ein sehr aufregender neuer Ansatz für die multimodale Dokumentensuche, der darauf abzielt, bestehende Dokumentensuchprogramme, die sich häufig auf einen OCR-Schritt stützen, durch einen multimodalen End-to-End-Ansatz zu ersetzen.

Molmo :Offene Gewichte und offene Daten
für modernste multimodale Modelle

Molmo ist ein neues Open-Source-Modell für multimodale KI, das vom Allen Institute for Artificial Intelligence (Ai2) entwickelt wurde. Angekündigt am 25. September 2024, zielt es darauf ab, hochleistungsfähige Fähigkeiten zu bieten und gleichzeitig eine deutlich kleinere Modellgröße im Vergleich zu anderen führenden KI-Systemen wie OpenAIs GPT-4o und Googles Gemini 1.5 Pro beizubehalten. es gibt drei Versionen des Molmo-KI-Modells:

MolmoE-1B: Ein Expertenmischungsmodell mit 1 Milliarde aktiver Parameter.
Molmo-7B-O: Die am besten zugängliche Version mit 7 Milliarden Parametern.
Molmo-72B: Die leistungsstärkste Version mit 72 Milliarden Parametern

MolmoE-1B: Ein Expertenmischungsmodell mit 1 Milliarde aktiver Parameter.

Molmo-7B-O: Die am besten zugängliche Version mit 7 Milliarden Parametern.

Molmo-72B: Die leistungsstärkste Version mit 72 Milliarden Parametern

VLM-Offenheitsvergleich Molmo AI übertrifft GPT-4o, Gemini 1.5 Pro & Claude 3.5

Wir charakterisieren die Offenheit von VLMs anhand von zwei Attributen (offene Gewichte, offene Daten und
Code) über drei Modellkomponenten hinweg (das VLM und seine beiden vortrainierten Komponenten, das LLM-Backbone und der Vision-Encoder). Zusätzlich zu "offen" vs. "geschlossen" verwenden wir die Kennzeichnung "destilliert", um darauf hinzuweisen, dass die zum Trainieren des VLM verwendeten Daten Bilder und Text enthalten, die von einem anderen, proprietären VLM generiert wurden, was bedeutet, dass das Modell nicht ohne Abhängigkeit von dem proprietären VLM reproduziert werden kann

Was wird in den sozialen Medien über PixelDance gesprochen?

Molmo von @allen_ai - Open Source SoTA Multimodal (Vision) Language model, schlägt Claude 3.5 Sonnet, GPT4V und ist vergleichbar mit GPT4o 🔥

Sie geben vier Modellprüfpunkte frei:

1. MolmoE-1B, eine Mischung aus Expertenmodell mit 1B (aktiv) 7B (gesamt)
2. Molmo-7B-O, das offenste 7B-Modell
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@erreichen_vb) 25. September 2024

Treffen Sie MOLMO 🔥🔥

hochmoderne multimodale KI, die quelloffen, leistungsstark und für jedermann kostenlos ist.

Sehen Sie sich diese erstaunliche Demo eines Roboters an, der das Molmo-Modell zur Erkennung von Objekten verwendet.

Sie haben eine kostenlose gehostete Version auf der Website, um das Modell mit Bild zu Text und Text zu Bild zu testen. Ich war... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27. September 2024

gestern @allen_ai veröffentlicht Malmo - eine Familie offener, moderner multimodaler KI-Modelle

Das Zeigen bietet eine natürliche, auf Bildpixeln basierende Erklärung

Wenn Sie Malmo auffordern, Objekte zu erkennen oder zu zählen, markiert er erkannte Objekte mit Punkten.

Link: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26. September 2024

Molmo von @allen_ai - ein multimodales SOTA-Modell

🤗Offene Modelle und teilweise offene Daten
🤏7B und 72B Modellgrößen (+7B MoE mit 1B aktiven Parametern)
🤯Benchmarks über GPT-4V, Flash, etc.
🗣️Human Bevorzugung von 72B auf Augenhöhe mit API-Spitzenmodellen
🧠PixMo, ein hochwertiger Datensatz für die Untertitelung... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25. September 2024

Ausprobieren @allen_aiMolmo VLM jetzt auf Open GRID! VLMs wie Molmo bieten Robotern eine reichhaltige semantische Wissensschicht, die es ihnen ermöglicht, auf Benutzeranfragen zu reagieren und komplexe Umgebungen mühelos zu interpretieren. Skalieren Sie noch heute autonome KI-Lösungen mit hochmodernen KI-Modellen auf GRID! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Skalierte Fundamente (@ScaFoAI) 27. September 2024

Llama 3.2 war gestern vielleicht nicht die interessanteste multimodale Veröffentlichung. 🤔 Molmo von @allen_ai übertrifft Llama 3.2, verfügbar unter Apache 2.0 und in der EU, wird ihre Daten veröffentlichen, erstellt benutzerdefinierte ELO-Auswertungen und eine einfachere Architektur als mllama3.2, die vermutlich... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26. September 2024

Häufig gestellte Fragen über Molmo

Molmo ist ein quelloffenes, multimodales KI-Modell, das vom Allen Institute for Artificial Intelligence (Ai2) entwickelt wurde und bessere Leistungen als das Llama 3.2 und ist unter der Apache 2.0 Lizenz verfügbar.

Molmo schneidet besser ab Llama 3.2 und soll mit einer einfacheren Architektur, die vermutlich mit Flash Attention kompatibel ist, effizienter sein.

Alle Molmo-Modelle werden unter der Apache 2.0 Lizenz veröffentlicht und sind auf Hugging Face verfügbar.

Molmo gibt es in vier Hauptvarianten: MolmoE-1B (eine Mischung aus Expertenmodell), Molmo-7B-O, Molmo-7B-D und Molmo-72B. Die 72B-Version basiert auf Qwen2-72B und verwendet OpenAI CLIP als Vision-Backbone.

Molmo konzentriert sich eher auf die Qualität der Daten als auf die Quantität und verwendet sprachbasierte Bildbeschreibungen für hochwertige Trainingsdaten aus dem PixMo-Datensatz.

Molmo kann Benutzeroberflächen verstehen und auf das zeigen, was es sieht. Molmo kann sowohl Text als auch Bilder gleichzeitig verarbeiten, so dass Benutzer Fragen zu Bildern stellen können, um z. B. Objekte zu identifizieren oder Gegenstände in einer Szene zu zählen.

Molmo wurde anhand von 11 akademischen Benchmarks und 325.231 menschlichen Paarvergleichen evaluiert, um seine Leistung und Benutzerpräferenz zu demonstrieren.

Ja, Sie können spaßige und leistungsstarke Modelle erleben wie: Diffusoren Image Outpaint , Llama3.2 , Qwen2.5

Erleben Sie das beste AI-Modell kostenlos online in 8PixLabs

Mehr AI Model Post kürzlich