Molmo AI: modello di intelligenza artificiale multimodale aperta SOTA 

Molmo Famiglia di modelli aperti di linguaggio di visione sviluppati dall'Allen Institute for AI. OpenSource

MolmoAI si basa su Qwen2

Molmo AI Free NoLogin online

Se avete riscontrato un errore, sceglietene un altro.

Chatbot di immagini con Molmo-7B

Chatbot di immagini con MolmoE-1B

Modello di linguaggio visivo - Molmo

ColPali fine-tuning Query Generator ColPali è un nuovo ed entusiasmante approccio al recupero di documenti multimodali che mira a sostituire i recuperatori di documenti esistenti, spesso basati su una fase OCR, con un approccio multimodale end-to-end.

Molmo :Pesi e dati aperti
per modelli multimodali all'avanguardia

Molmo è un modello di IA multimodale open-source appena rilasciato e sviluppato dall'Allen Institute for Artificial Intelligence (Ai2). Annunciato il 25 settembre 2024, ha l'obiettivo di fornire capacità ad alte prestazioni pur mantenendo una dimensione del modello significativamente più piccola rispetto ad altri sistemi di IA leader, come GPT-4o di OpenAI e Gemini 1.5 Pro di Google:

  • MolmoE-1B: Un modello a miscela di esperti con 1 miliardo di parametri attivi.
  • Molmo-7B-O: La versione più accessibile con 7 miliardi di parametri.
  • Molmo-72B: La versione più performante con 72 miliardi di parametri

MolmoE-1B: Un modello a miscela di esperti con 1 miliardo di parametri attivi.

Molmo-7B-O: La versione più accessibile con 7 miliardi di parametri.

Molmo-72B: La versione più performante con 72 miliardi di parametri

Confronto sull'apertura VLM Molmo AI supera GPT-4o, Gemini 1.5 Pro e Claude 3.5

Caratterizziamo l'apertura dei VLM sulla base di due attributi (pesi aperti, dati aperti e
codice) su tre componenti del modello (il VLM e i suoi due componenti pre-addestrati, il backbone LLM e il codificatore di visione). Oltre all'etichetta "aperto" o "chiuso", usiamo l'etichetta "distillato" per indicare che i dati usati per addestrare il VLM includono immagini e testi generati da un VLM diverso e proprietario, il che significa che il modello non può essere riprodotto senza dipendere dal VLM proprietario.

Che cosa si dice di PixelDance sui social media?

Domande frequenti su Molmo

Molmo è un modello di intelligenza artificiale multimodale open-source sviluppato dall'Allen Institute for Artificial Intelligence (Ai2) che supera le prestazioni di Llama 3.2 ed è disponibile sotto la licenza Apache 2.0.

Molmo supera le prestazioni Llama 3.2 ed è progettato per essere più efficiente con un'architettura più semplice, presumibilmente compatibile con l'attenzione del flash.

Tutti i modelli Molmo sono rilasciati sotto licenza Apache 2.0 e sono disponibili su Hugging Face.

Molmo è disponibile in quattro varianti principali: MolmoE-1B (un modello misto di esperti), Molmo-7B-O, Molmo-7B-D e Molmo-72B. La versione 72B è basata su Qwen2-72B e utilizza OpenAI CLIP come struttura portante della visione.

Molmo si concentra sulla qualità dei dati piuttosto che sulla quantità, utilizzando descrizioni di immagini basate sul parlato per ottenere dati di formazione di alta qualità dal set di dati PixMo.

Molmo è in grado di comprendere le interfacce utente e di indicare ciò che vede. È in grado di elaborare contemporaneamente testo e immagini, consentendo agli utenti di porre domande sulle immagini per compiti come l'identificazione di oggetti o il conteggio di elementi all'interno di una scena.

Molmo è stato valutato su 11 benchmark accademici e attraverso 325.231 confronti umani a coppie, dimostrando le sue prestazioni e la preferenza degli utenti.

Sì, è possibile sperimentare modelli divertenti e potenti come: Diffusori Immagine Outpaint , Llama3.2 , Qwen2.5

Prova il miglior modello di intelligenza artificiale gratis online in 8PixLabs

Altri modelli AI pubblicati di recente