Molmo AI: Modelo de IA de linguagem aberta multimodal SOTA

Molmo Família de modelos abertos de linguagem de visão desenvolvidos pelo Allen Institute for AI. Código aberto

O MolmoAI baseia-se em Qwen2

Molmo AI Free NoLogin online

Se encontrar um erro, escolha outro

Chatbot de imagem
Chatbot de imagem
Modelo de linguagem visual
Recuperação de documentos

Chatbot de imagem com Molmo-7B

Chatbot de imagem com o MolmoE-1B

Modelo de linguagem visual - Molmo

ColPali fine-tuning Query Generator ColPali é uma nova abordagem muito interessante para a recuperação de documentos multimodais, que visa substituir os recuperadores de documentos existentes, que muitas vezes dependem de uma etapa de OCR, por uma abordagem multimodal de ponta a ponta.

Molmo :Pesos abertos e dados abertos
para modelos multimodais de última geração

O Molmo é um modelo de IA multimodal de código aberto recentemente lançado, desenvolvido pelo Allen Institute for Artificial Intelligence (Ai2). Anunciado em 25 de setembro de 2024, ele visa fornecer recursos de alto desempenho, mantendo um tamanho de modelo significativamente menor em comparação com outros sistemas de IA líderes, como o GPT-4o da OpenAI e o Gemini 1.5 Pro do Google. há três versões do modelo Molmo ai:

MolmoE-1B: Um modelo de mistura de peritos com mil milhões de parâmetros activos.
Molmo-7B-O: A versão mais acessível com 7 mil milhões de parâmetros.
Molmo-72B: A versão com melhor desempenho, com 72 mil milhões de parâmetros

MolmoE-1B: Um modelo de mistura de peritos com mil milhões de parâmetros activos.

Molmo-7B-O: A versão mais acessível com 7 mil milhões de parâmetros.

Molmo-72B: A versão com melhor desempenho, com 72 mil milhões de parâmetros

Comparação da abertura VLM Molmo AI com melhor desempenho do que GPT-4o, Gemini 1.5 Pro e Claude 3.5

Caracterizamos a abertura dos MVR com base em dois atributos (pesos abertos, dados abertos e
código) em três componentes do modelo (o VLM e os seus dois componentes pré-treinados, a espinha dorsal do LLM e o codificador de visão). Para além de aberto vs. fechado, utilizamos o rótulo "destilado" para indicar que os dados utilizados para treinar o VLM incluem imagens e texto gerados por um VLM diferente e proprietário, o que significa que o modelo não pode ser reproduzido sem uma dependência do VLM proprietário

O que é que as pessoas falam sobre PixelDance nas redes sociais

Molmo por @allen_ai - Modelo de linguagem multimodal (visão) SoTA de fonte aberta, superando o Claude 3.5 Sonnet, GPT4V e comparável ao GPT4o 🔥

Lançam quatro modelos de pontos de controlo:

1. MolmoE-1B, um modelo de mistura de peritos com 1B (ativo) 7B (total)
2. Molmo-7B-O, modelo 7B mais aberto
3.... pic.twitter.com/9hpARh0GYT
- Vaibhav (VB) Srivastav (@reach_vb) 25 de setembro de 2024

Conheça o MOLMO 🔥🔥

IA multimodal de ponta que é de código aberto, poderosa e gratuita para todos.

Veja esta fantástica demonstração de um robô que utiliza o modelo Molmo para detetar objectos.

Eles têm uma versão hospedada gratuita no site para experimentar o modelo com Imagem para Texto e Texto para Imagem. Eu estava... pic.twitter.com/Qx7hp1rtcb
- Prashant (@Prashant_1722) 27 de setembro de 2024

ontem @allen_ai lançado Malmo - uma família de modelos de IA multimodal abertos e de última geração

apontar fornece uma explicação natural baseada nos pixéis da imagem

quando se pede ao Malmo para detetar ou contar objectos, este marca os objectos detectados com pontos

ligação: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- SkalskiP (@skalskip92) 26 de setembro de 2024

Molmo por @allen_ai - um modelo multimodal SOTA

Modelos abertos e dados parcialmente abertos
Tamanhos de modelo de 7B e 72B (+7B MoE com 1B parâmetros activos)
Benchmarks acima de GPT-4V, Flash, etc
🗣️Human Preferência do 72B a par dos modelos API de topo
🧠PixMo, um conjunto de dados de alta qualidade para a legendagem... pic.twitter.com/faqvCkAmsb
- Omar Sanseviero (@osanseviero) 25 de setembro de 2024

Experimentar @allen_ais Molmo VLM no Open GRID agora! VLMs como o Molmo trazem uma camada rica de conhecimento semântico para os robôs - permitindo-lhes responder às perguntas dos utilizadores e interpretar ambientes complexos com facilidade. Escale soluções de IA autónomas com modelos de IA de última geração no GRID hoje mesmo! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- Fundações em escala (@ScaFoAI) 27 de setembro de 2024

O Llama 3.2 pode não ter sido o lançamento multimodal mais interessante de ontem. Molmo de @allen_ai supera o Llama 3.2, disponível sob o Apache 2.0 e na UE, vai divulgar os seus dados, criou avaliações ELO personalizadas e tem uma arquitetura mais simples do que o mllama3.2, que é presumivelmente... pic.twitter.com/du63zXjQcN
- Philipp Schmid (@_philschmid) 26 de setembro de 2024

Perguntas frequentes sobre o Molmo

O Molmo é um modelo de IA multimodal de código aberto desenvolvido pelo Allen Institute for Artificial Intelligence (Ai2) que tem um desempenho superior a Lhama 3.2 e está disponível sob a licença Apache 2.0.

O Molmo tem um desempenho superior Lhama 3.2 e foi concebido para ser mais eficiente com uma arquitetura mais simples que é presumivelmente compatível com a atenção flash.

Todos os modelos Molmo são lançados ao abrigo da licença Apache 2.0 e estão disponíveis em Hugging Face.

O Molmo está disponível em quatro variantes principais: MolmoE-1B (uma mistura de modelos de especialistas), Molmo-7B-O, Molmo-7B-D e Molmo-72B. A versão 72B é baseada no Qwen2-72B e utiliza o OpenAI CLIP como base de visão.

O Molmo centra-se na qualidade dos dados e não na quantidade, utilizando descrições de imagens baseadas na fala para dados de formação de alta qualidade do conjunto de dados PixMo.

O Molmo consegue compreender interfaces de utilizador e apontar para o que vê. É excelente no processamento simultâneo de texto e imagens, permitindo aos utilizadores fazer perguntas sobre imagens para tarefas como a identificação de objectos ou a contagem de itens numa cena.

O Molmo foi avaliado em 11 referências académicas e através de 325.231 comparações humanas entre pares, demonstrando o seu desempenho e a preferência dos utilizadores.

Sim, pode experimentar modelos divertidos e poderosos como : Difusores Imagem Outpaint , Llama3.2 , Qwen2.5

Experimente o melhor modelo de IA grátis online em 8PixLabs

Mais publicações recentes sobre modelos de IA