Molmo AI: SOTA multimodal AI-modell med öppet språk 

Molmo Familj av öppna synspråksmodeller som utvecklats av Allen Institute for AI. Öppen källkod

MolmoAI är baserat på Qwen2

Molmo AI Gratis NoLogin online

Om du stötte på fel, vänligen välj en annan

Bildchattbot med Molmo-7B

Bildchattbot med MolmoE-1B

Visuell språkmodell - Molmo

ColPali finjusterar frågegeneratorn ColPali är en mycket spännande ny metod för multimodal dokumenthämtning som syftar till att ersätta befintliga dokumenthämtare som ofta förlitar sig på ett OCR-steg med en multimodal metod från början till slut.

Molmo :Öppna vikter och öppna data
för toppmoderna multimodala modeller

Molmo är en nyligen släppt multimodal AI-modell med öppen källkod som utvecklats av Allen Institute for Artificial Intelligence (Ai2). Tillkännagavs den 25 september 2024 och syftar till att tillhandahålla högpresterande funktioner samtidigt som den bibehåller en betydligt mindre modellstorlek jämfört med andra ledande AI-system, såsom OpenAI: s GPT-4o och Googles Gemini 1.5 Pro. det finns tre versioner av Molmo ai-modell:

  • MolmoE-1B: En modell med blandning av experter med 1 miljard aktiva parametrar.
  • Molmo-7B-O: Den mest tillgängliga versionen med 7 miljarder parametrar.
  • Molmo-72B: Den mest högpresterande versionen med 72 miljarder parametrar

MolmoE-1B: En modell med blandning av experter med 1 miljard aktiva parametrar.

Molmo-7B-O: Den mest tillgängliga versionen med 7 miljarder parametrar.

Molmo-72B: Den mest högpresterande versionen med 72 miljarder parametrar

Jämförelse av VLM-öppenhet Molmo AI överträffar GPT-4o, Gemini 1.5 Pro och Claude 3.5

Vi karakteriserar VLM:s öppenhet baserat på två attribut (öppna vikter, öppna data och
kod) över tre modellkomponenter (VLM och dess två förtränade komponenter, LLM-stamnätet och visionskodaren). Förutom öppen vs. sluten använder vi etiketten "destillerad" för att indikera att de data som används för att träna VLM innehåller bilder och text som genererats av en annan, proprietär VLM, vilket innebär att modellen inte kan reproduceras utan ett beroende av den proprietära VLM

Vad pratar folk om PixelDance i sociala medier

Ofta ställda frågor om Molmo

Molmo är en multimodal AI-modell med öppen källkod som utvecklats av Allen Institute for Artificial Intelligence (Ai2) och som överträffar Llama 3.2 och är tillgänglig under Apache 2.0-licensen.

Molmo överträffar Llama 3.2 och är utformad för att vara mer effektiv med en enklare arkitektur som förmodligen är kompatibel med flash attention.

Alla Molmo-modeller släpps under Apache 2.0-licensen och finns tillgängliga på Hugging Face.

Molmo finns i fyra huvudvarianter: MolmoE-1B (en blandning av expertmodeller), Molmo-7B-O, Molmo-7B-D och Molmo-72B. 72B-versionen är baserad på Qwen2-72B och använder OpenAI CLIP som sin vision backbone.

Molmo fokuserar på datakvalitet snarare än kvantitet och använder talbaserade bildbeskrivningar för högkvalitativa träningsdata från PixMo-datasetet.

Molmo kan förstå användargränssnitt och peka på det den ser. Den kan bearbeta både text och bilder samtidigt, vilket gör det möjligt för användare att ställa frågor om bilder för uppgifter som objektidentifiering eller räkning av föremål i en scen.

Molmo utvärderades på 11 akademiska benchmarks och genom 325.231 mänskliga parvisa jämförelser, vilket visar dess prestanda och användarnas preferenser.

Ja, du kan uppleva roliga och kraftfulla modeller som : Diffusorer Image Outpaint , Llama3.2 , Qwen2,5

Erfarenhet Bästa AI-modell Gratis online i 8PixLabs

Mer AI-modell Post nyligen