Molmo AI: SOTA multimodal AI-modell med öppet språk

Molmo Familj av öppna synspråksmodeller som utvecklats av Allen Institute for AI. Öppen källkod

MolmoAI är baserat på Qwen2

Molmo AI Gratis NoLogin online

Om du stötte på fel, vänligen välj en annan

Chattbot för bilder
Chattbot för bilder
Visuell språkmodell
Dokumenthämtning

Bildchattbot med Molmo-7B

Bildchattbot med MolmoE-1B

Visuell språkmodell - Molmo

ColPali finjusterar frågegeneratorn ColPali är en mycket spännande ny metod för multimodal dokumenthämtning som syftar till att ersätta befintliga dokumenthämtare som ofta förlitar sig på ett OCR-steg med en multimodal metod från början till slut.

Molmo :Öppna vikter och öppna data
för toppmoderna multimodala modeller

Molmo är en nyligen släppt multimodal AI-modell med öppen källkod som utvecklats av Allen Institute for Artificial Intelligence (Ai2). Tillkännagavs den 25 september 2024 och syftar till att tillhandahålla högpresterande funktioner samtidigt som den bibehåller en betydligt mindre modellstorlek jämfört med andra ledande AI-system, såsom OpenAI: s GPT-4o och Googles Gemini 1.5 Pro. det finns tre versioner av Molmo ai-modell:

MolmoE-1B: En modell med blandning av experter med 1 miljard aktiva parametrar.
Molmo-7B-O: Den mest tillgängliga versionen med 7 miljarder parametrar.
Molmo-72B: Den mest högpresterande versionen med 72 miljarder parametrar

MolmoE-1B: En modell med blandning av experter med 1 miljard aktiva parametrar.

Molmo-7B-O: Den mest tillgängliga versionen med 7 miljarder parametrar.

Molmo-72B: Den mest högpresterande versionen med 72 miljarder parametrar

Jämförelse av VLM-öppenhet Molmo AI överträffar GPT-4o, Gemini 1.5 Pro och Claude 3.5

Vi karakteriserar VLM:s öppenhet baserat på två attribut (öppna vikter, öppna data och
kod) över tre modellkomponenter (VLM och dess två förtränade komponenter, LLM-stamnätet och visionskodaren). Förutom öppen vs. sluten använder vi etiketten "destillerad" för att indikera att de data som används för att träna VLM innehåller bilder och text som genererats av en annan, proprietär VLM, vilket innebär att modellen inte kan reproduceras utan ett beroende av den proprietära VLM

Vad pratar folk om PixelDance i sociala medier

Molmo av @allen_ai - Open source SoTA Multimodal (Vision) Language model, slår Claude 3.5 Sonnet, GPT4V och jämförbar med GPT4o 🔥

De släpper fyra modellkontrollpunkter:

1. MolmoE-1B, en blandning av expertmodeller med 1B (aktiv) 7B (total)
2. Molmo-7B-O, den mest öppna 7B-modellen
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 25 september 2024

Möt MOLMO 🔥🔥

banbrytande multimodal AI som är öppen källkod, kraftfull och gratis för alla.

se den här fantastiska demonstrationen av en robot som använder Molmo-modellen för att upptäcka objekt.

De har en gratis värdversion på webbplatsen för att prova modellen med Image to Text och Text to Image. Jag var... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27 september 2024

igår @allen_ai släppte Malmo - en familj av öppna multimodala AI-modeller i toppklass

pekning ger en naturlig förklaring grundad i bildpixlar

när du ber Malmo att upptäcka eller räkna objekt, markerar det upptäckta objektet med poäng

länk: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26 september 2024

Molmo av @allen_ai - en multimodal SOTA-modell

🤗Öppna modeller och delvis öppna data
🤏7B och 72B modellstorlekar (+7B MoE med 1B aktiva params)
🤯Benchmarks ovanför GPT-4V, Flash, etc
🗣️Human Preferens för 72B i nivå med API-toppmodeller
🧠PixMo, en högkvalitativ dataset för bildtexter ... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25 september 2024

Prova ut @allen_aiMolmo VLM på Open GRID nu! VLM:er som Molmo ger robotar ett rikt lager av semantisk kunskap - så att de kan svara på användarfrågor och tolka komplexa miljöer med lätthet. Skala upp autonoma AI-lösningar med toppmoderna AI-modeller på GRID idag! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Skalade stiftelser (@ScaFoAI) 27 september 2024

Llama 3.2 var kanske inte den mest intressanta multimodala releasen igår. 🤔 Molmo från @allen_ai överträffar Llama 3.2, tillgänglig under Apache 2.0 och i EU, kommer att släppa sina data, skapade anpassade ELO-eval och enklare arkitektur än mllama3.2 som förmodligen är ... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26 september 2024

Ofta ställda frågor om Molmo

Molmo är en multimodal AI-modell med öppen källkod som utvecklats av Allen Institute for Artificial Intelligence (Ai2) och som överträffar Llama 3.2 och är tillgänglig under Apache 2.0-licensen.

Molmo överträffar Llama 3.2 och är utformad för att vara mer effektiv med en enklare arkitektur som förmodligen är kompatibel med flash attention.

Alla Molmo-modeller släpps under Apache 2.0-licensen och finns tillgängliga på Hugging Face.

Molmo finns i fyra huvudvarianter: MolmoE-1B (en blandning av expertmodeller), Molmo-7B-O, Molmo-7B-D och Molmo-72B. 72B-versionen är baserad på Qwen2-72B och använder OpenAI CLIP som sin vision backbone.

Molmo fokuserar på datakvalitet snarare än kvantitet och använder talbaserade bildbeskrivningar för högkvalitativa träningsdata från PixMo-datasetet.

Molmo kan förstå användargränssnitt och peka på det den ser. Den kan bearbeta både text och bilder samtidigt, vilket gör det möjligt för användare att ställa frågor om bilder för uppgifter som objektidentifiering eller räkning av föremål i en scen.

Molmo utvärderades på 11 akademiska benchmarks och genom 325.231 mänskliga parvisa jämförelser, vilket visar dess prestanda och användarnas preferenser.

Ja, du kan uppleva roliga och kraftfulla modeller som : Diffusorer Image Outpaint , Llama3.2 , Qwen2,5

Erfarenhet Bästa AI-modell Gratis online i 8PixLabs

Mer AI-modell Post nyligen