Molmo AI: modello di intelligenza artificiale multimodale aperta SOTA

Molmo Famiglia di modelli aperti di linguaggio di visione sviluppati dall'Allen Institute for AI. OpenSource

MolmoAI si basa su Qwen2

Molmo AI Free NoLogin online

Se avete riscontrato un errore, sceglietene un altro.

Chatbot dell'immagine
Chatbot dell'immagine
Modello di linguaggio visivo
Recupero dei documenti

Chatbot di immagini con Molmo-7B

Chatbot di immagini con MolmoE-1B

Modello di linguaggio visivo - Molmo

ColPali fine-tuning Query Generator ColPali è un nuovo ed entusiasmante approccio al recupero di documenti multimodali che mira a sostituire i recuperatori di documenti esistenti, spesso basati su una fase OCR, con un approccio multimodale end-to-end.

Molmo :Pesi e dati aperti
per modelli multimodali all'avanguardia

Molmo è un modello di IA multimodale open-source appena rilasciato e sviluppato dall'Allen Institute for Artificial Intelligence (Ai2). Annunciato il 25 settembre 2024, ha l'obiettivo di fornire capacità ad alte prestazioni pur mantenendo una dimensione del modello significativamente più piccola rispetto ad altri sistemi di IA leader, come GPT-4o di OpenAI e Gemini 1.5 Pro di Google:

MolmoE-1B: Un modello a miscela di esperti con 1 miliardo di parametri attivi.
Molmo-7B-O: La versione più accessibile con 7 miliardi di parametri.
Molmo-72B: La versione più performante con 72 miliardi di parametri

MolmoE-1B: Un modello a miscela di esperti con 1 miliardo di parametri attivi.

Molmo-7B-O: La versione più accessibile con 7 miliardi di parametri.

Molmo-72B: La versione più performante con 72 miliardi di parametri

Confronto sull'apertura VLM Molmo AI supera GPT-4o, Gemini 1.5 Pro e Claude 3.5

Caratterizziamo l'apertura dei VLM sulla base di due attributi (pesi aperti, dati aperti e
codice) su tre componenti del modello (il VLM e i suoi due componenti pre-addestrati, il backbone LLM e il codificatore di visione). Oltre all'etichetta "aperto" o "chiuso", usiamo l'etichetta "distillato" per indicare che i dati usati per addestrare il VLM includono immagini e testi generati da un VLM diverso e proprietario, il che significa che il modello non può essere riprodotto senza dipendere dal VLM proprietario.

Che cosa si dice di PixelDance sui social media?

Molmo di @allen_ai - Modello di linguaggio multimodale (visione) SoTA open source, che batte Claude 3.5 Sonnet, GPT4V ed è paragonabile a GPT4o 🔥

Rilasciano quattro punti di controllo del modello:

1. MolmoE-1B, un modello misto di esperti con 1B (attivo) 7B (totale)
2. Molmo-7B-O, modello 7B più aperto
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 25 settembre 2024

Vi presentiamo il MOLMO 🔥🔥

un'intelligenza artificiale multimodale all'avanguardia che è open-source, potente e gratuita per tutti.

vedere questa straordinaria dimostrazione di un robot che utilizza il modello Molmo per rilevare gli oggetti.

Sul sito web è disponibile una versione gratuita in hosting per provare il modello con Immagine a testo e Testo a immagine. Stavo... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27 settembre 2024

ieri @allen_ai rilasciato Malmo - una famiglia di modelli di intelligenza artificiale multimodale aperti e all'avanguardia

Il puntamento fornisce una spiegazione naturale basata sui pixel dell'immagine.

Quando si chiede a Malmo di rilevare o contare gli oggetti, gli oggetti rilevati vengono contrassegnati con dei punti.

link: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26 settembre 2024

Molmo di @allen_ai - un modello multimodale SOTA

🤗Modelli aperti e dati parzialmente aperti
🤏7B e 72B dimensioni del modello (+7B MoE con 1B parametri attivi)
🤯Benchmark sopra GPT-4V, Flash, ecc.
🗣️Human La preferenza del 72B è pari a quella dei modelli top API
🧠PixMo, un dataset di alta qualità per le didascalie... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25 settembre 2024

Prova @allen_aiMolmo VLM su Open GRID! I VLM come Molmo apportano un ricco strato di conoscenza semantica ai robot, consentendo loro di rispondere alle domande degli utenti e di interpretare ambienti complessi con facilità. Scalate le soluzioni di intelligenza artificiale autonoma con modelli di intelligenza artificiale all'avanguardia su GRID oggi stesso! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Fondazioni scalari (@ScaFoAI) 27 settembre 2024

Llama 3.2 potrebbe non essere stato il rilascio multimodale più interessante di ieri. 🤔 Molmo di @allen_ai supera Llama 3.2, è disponibile sotto Apache 2.0 e nell'UE, rilascerà i propri dati, ha creato valutazioni ELO personalizzate e un'architettura più semplice di mllama3.2 che presumibilmente... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26 settembre 2024

Domande frequenti su Molmo

Molmo è un modello di intelligenza artificiale multimodale open-source sviluppato dall'Allen Institute for Artificial Intelligence (Ai2) che supera le prestazioni di Llama 3.2 ed è disponibile sotto la licenza Apache 2.0.

Molmo supera le prestazioni Llama 3.2 ed è progettato per essere più efficiente con un'architettura più semplice, presumibilmente compatibile con l'attenzione del flash.

Tutti i modelli Molmo sono rilasciati sotto licenza Apache 2.0 e sono disponibili su Hugging Face.

Molmo è disponibile in quattro varianti principali: MolmoE-1B (un modello misto di esperti), Molmo-7B-O, Molmo-7B-D e Molmo-72B. La versione 72B è basata su Qwen2-72B e utilizza OpenAI CLIP come struttura portante della visione.

Molmo si concentra sulla qualità dei dati piuttosto che sulla quantità, utilizzando descrizioni di immagini basate sul parlato per ottenere dati di formazione di alta qualità dal set di dati PixMo.

Molmo è in grado di comprendere le interfacce utente e di indicare ciò che vede. È in grado di elaborare contemporaneamente testo e immagini, consentendo agli utenti di porre domande sulle immagini per compiti come l'identificazione di oggetti o il conteggio di elementi all'interno di una scena.

Molmo è stato valutato su 11 benchmark accademici e attraverso 325.231 confronti umani a coppie, dimostrando le sue prestazioni e la preferenza degli utenti.

Sì, è possibile sperimentare modelli divertenti e potenti come: Diffusori Immagine Outpaint , Llama3.2 , Qwen2.5

Prova il miglior modello di intelligenza artificiale gratis online in 8PixLabs

Altri modelli AI pubblicati di recente