Molmo AI: SOTA Multimodal Open Language AI-modell

Molmo Family of open visjon-språkmodeller utviklet av Allen Institute for AI. OpenSource

MolmoAI er basert på Qwen2

Molmo AI Gratis NoLogin online

Hvis du støter på feil, vennligst velg en annen

Bilde Chatbot
Bilde Chatbot
Visuell språkmodell
Dokumenthenting

Bilde Chatbot med Molmo-7B

Bilde Chatbot med MolmoE-1B

Visuell språkmodell – Molmo

ColPali finjustering Query Generator ColPali er en veldig spennende ny tilnærming til multimodal dokumentinnhenting som tar sikte på å erstatte eksisterende dokumenthentere som ofte er avhengige av et OCR-trinn med en ende-til-ende multimodal tilnærming.

Molmo :Åpne vekter og åpne data
for toppmoderne multimodale modeller

Molmo er en nylig utgitt åpen kildekode multimodal AI-modell utviklet av Allen Institute for Artificial Intelligence (Ai2). Den ble kunngjort 25. september 2024 og har som mål å gi høyytelsesfunksjoner samtidig som den opprettholder en betydelig mindre modellstørrelse sammenlignet med andre ledende AI-systemer, som OpenAIs GPT-4o og Googles Gemini 1.5 Pro. det er tre versjoner av Molmo ai-modellen:

MolmoE-1B: En blanding av ekspertmodeller med 1 milliard aktive parametere.
Molmo-7B-O: Den mest tilgjengelige versjonen med 7 milliarder parametere.
Molmo-72B: Den beste versjonen med 72 milliarder parametere

MolmoE-1B: En blanding av ekspertmodeller med 1 milliard aktive parametere.

Molmo-7B-O: Den mest tilgjengelige versjonen med 7 milliarder parametere.

Molmo-72B: Den beste versjonen med 72 milliarder parametere

VLM Åpenhetssammenligning Molmo AI overgår GPT-4o, Gemini 1.5 Pro og Claude 3.5

Vi karakteriserer åpenheten til VLM-er basert på to attributter (åpne vekter, åpne data og
kode) på tvers av tre modellkomponenter (VLM og dens to ferdigtrente komponenter, LLM-ryggraden og vision-koderen). I tillegg til åpen vs. lukket, bruker vi "destillert"-etiketten for å indikere at dataene som brukes til å trene VLM inkluderer bilder og tekst generert av en annen, proprietær VLM, noe som betyr at modellen ikke kan reproduseres uten en avhengighet av den proprietære VLM.

Hva er det folk snakker om PixelDance i sosiale medier

Molmo by @allen_ai – Åpen kildekode SoTA Multimodal (Vision) Språkmodell, slo Claude 3.5 Sonnet, GPT4V og kan sammenlignes med GPT4o 🔥

De frigjør fire modellsjekkpunkter:

1. MolmoE-1B, en blanding av ekspertmodeller med 1B (aktiv) 7B (totalt)
2. Molmo-7B-O, mest åpne 7B-modell
3.… pic.twitter.com/9hpARh0GYT
— Vaibhav (VB) Srivastav (@reach_vb) 25. september 2024

Møt MOLMO 🔥🔥

banebrytende multimodal AI som er åpen kildekode, kraftig og gratis for alle.

se denne fantastiske demoen av en robot som bruker Molmo-modellen for å oppdage objekter.

De har en gratis hosted versjon på nettsiden for å prøve modellen med Image to Text og Text to Image. jeg var… pic.twitter.com/Qx7hp1rtcb
— Prashant (@Prashant_1722) 27. september 2024

i går @allen_ai lanserte Malmo – en familie av åpne toppmoderne multimodale AI-modeller

peking gir en naturlig forklaring basert på bildepiksler

når du ber Malmö om å oppdage eller telle objekter, vil det merke oppdagede objekter med poeng

link: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
— SkalskiP (@skalskip92) 26. september 2024

Molmo by @allen_ai – en SOTA multimodal modell

🤗Åpne modeller og delvis åpne data
🤏7B og 72B modellstørrelser (+7B MoE med 1B aktive paramer)
🤯Referansemål over GPT-4V, Flash, etc
🗣️Menneskelig preferanse for 72B på nivå med topp API-modeller
🧠PixMo, et datasett av høy kvalitet for teksting... pic.twitter.com/faqvCkAmsb
— Omar Sanseviero (@osanseviero) 25. september 2024

Prøv deg frem @allen_ai's Molmo VLM på Open GRID nå! VLM-er som Molmo tilfører roboter et rikt lag med semantisk kunnskap – slik at de enkelt kan svare på brukerforespørsler og tolke komplekse miljøer. Skaler autonome AI-løsninger med toppmoderne AI-modeller på GRID i dag! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
— Scaled Foundations (@ScaFoAI) 27. september 2024

Llama 3.2 var kanskje ikke den mest interessante multimodale utgivelsen i går. 🤔 Molmo fra @allen_ai utkonkurrerer Llama 3.2, tilgjengelig under Apache 2.0 og i EU, vil frigi dataene deres, opprettet tilpassede ELO-evaler og enklere arkitektur enn mllama3.2, det er antagelig... pic.twitter.com/du63zXjQcN
— Philipp Schmid (@_philschmid) 26. september 2024

Ofte stilte spørsmål om Molmo

Molmo er en åpen kildekode multimodal AI-modell utviklet av Allen Institute for Artificial Intelligence (Ai2) som overgår Lama 3.2 og er tilgjengelig under Apache 2.0-lisensen.

Molmo presterer bedre Lama 3.2 og er designet for å være mer effektiv med en enklere arkitektur som antagelig er kompatibel med flash oppmerksomhet.

Alle Molmo-modeller er utgitt under Apache 2.0-lisensen og er tilgjengelige på Hugging Face.

Molmo kommer i fire hovedvarianter: MolmoE-1B (en blanding av ekspertmodeller), Molmo-7B-O, Molmo-7B-D og Molmo-72B. 72B-versjonen er basert på Qwen2-72B og bruker OpenAI CLIP som sin visjonsryggrad.

Molmo fokuserer på kvaliteten på data i stedet for kvantitet, og bruker talebaserte bildebeskrivelser for treningsdata av høy kvalitet fra PixMo-datasettet.

Molmo kan forstå brukergrensesnitt og peke på det den ser. Den utmerker seg ved å behandle både tekst og bilder samtidig, slik at brukere kan stille spørsmål om bilder for oppgaver som objektidentifikasjon eller telling av elementer i en scene.

Molmo ble evaluert på 11 akademiske benchmarks og gjennom 325 231 menneskelige parvise sammenligninger, som demonstrerte ytelsen og brukerpreferansene.

Ja, du kan oppleve morsomme og kraftige modeller som: Diffusers Image Outpaint , Lama3.2 , Qwen2.5

Opplev beste AI-modell gratis online i 8PixLabs

Mer AI Model Post nylig