Molmo AI: SOTA Multimodal Open Language AI-modell 

Molmo Family of open visjon-språkmodeller utviklet av Allen Institute for AI. OpenSource

MolmoAI er basert på Qwen2

Molmo AI Gratis NoLogin online

Hvis du støter på feil, vennligst velg en annen

Bilde Chatbot med Molmo-7B

Bilde Chatbot med MolmoE-1B

Visuell språkmodell – Molmo

ColPali finjustering Query Generator ColPali er en veldig spennende ny tilnærming til multimodal dokumentinnhenting som tar sikte på å erstatte eksisterende dokumenthentere som ofte er avhengige av et OCR-trinn med en ende-til-ende multimodal tilnærming.

Molmo :Åpne vekter og åpne data
for toppmoderne multimodale modeller

Molmo er en nylig utgitt åpen kildekode multimodal AI-modell utviklet av Allen Institute for Artificial Intelligence (Ai2). Den ble kunngjort 25. september 2024 og har som mål å gi høyytelsesfunksjoner samtidig som den opprettholder en betydelig mindre modellstørrelse sammenlignet med andre ledende AI-systemer, som OpenAIs GPT-4o og Googles Gemini 1.5 Pro. det er tre versjoner av Molmo ai-modellen:

  • MolmoE-1B: En blanding av ekspertmodeller med 1 milliard aktive parametere.
  • Molmo-7B-O: Den mest tilgjengelige versjonen med 7 milliarder parametere.
  • Molmo-72B: Den beste versjonen med 72 milliarder parametere

MolmoE-1B: En blanding av ekspertmodeller med 1 milliard aktive parametere.

Molmo-7B-O: Den mest tilgjengelige versjonen med 7 milliarder parametere.

Molmo-72B: Den beste versjonen med 72 milliarder parametere

VLM Åpenhetssammenligning Molmo AI overgår GPT-4o, Gemini 1.5 Pro og Claude 3.5

Vi karakteriserer åpenheten til VLM-er basert på to attributter (åpne vekter, åpne data og
kode) på tvers av tre modellkomponenter (VLM og dens to ferdigtrente komponenter, LLM-ryggraden og vision-koderen). I tillegg til åpen vs. lukket, bruker vi "destillert"-etiketten for å indikere at dataene som brukes til å trene VLM inkluderer bilder og tekst generert av en annen, proprietær VLM, noe som betyr at modellen ikke kan reproduseres uten en avhengighet av den proprietære VLM.

Hva er det folk snakker om PixelDance i sosiale medier

Ofte stilte spørsmål om Molmo

Molmo er en åpen kildekode multimodal AI-modell utviklet av Allen Institute for Artificial Intelligence (Ai2) som overgår Lama 3.2 og er tilgjengelig under Apache 2.0-lisensen.

Molmo presterer bedre Lama 3.2 og er designet for å være mer effektiv med en enklere arkitektur som antagelig er kompatibel med flash oppmerksomhet.

Alle Molmo-modeller er utgitt under Apache 2.0-lisensen og er tilgjengelige på Hugging Face.

Molmo kommer i fire hovedvarianter: MolmoE-1B (en blanding av ekspertmodeller), Molmo-7B-O, Molmo-7B-D og Molmo-72B. 72B-versjonen er basert på Qwen2-72B og bruker OpenAI CLIP som sin visjonsryggrad.

Molmo fokuserer på kvaliteten på data i stedet for kvantitet, og bruker talebaserte bildebeskrivelser for treningsdata av høy kvalitet fra PixMo-datasettet.

Molmo kan forstå brukergrensesnitt og peke på det den ser. Den utmerker seg ved å behandle både tekst og bilder samtidig, slik at brukere kan stille spørsmål om bilder for oppgaver som objektidentifikasjon eller telling av elementer i en scene.

Molmo ble evaluert på 11 akademiske benchmarks og gjennom 325 231 menneskelige parvise sammenligninger, som demonstrerte ytelsen og brukerpreferansene.

Ja, du kan oppleve morsomme og kraftige modeller som: Diffusers Image Outpaint , Lama3.2 , Qwen2.5

Opplev beste AI-modell gratis online i 8PixLabs

Mer AI Model Post nylig