Molmo AI: Modelo de IA de linguagem aberta multimodal SOTA 

Molmo Família de modelos abertos de linguagem de visão desenvolvidos pelo Allen Institute for AI. Código aberto

O MolmoAI baseia-se em Qwen2

Molmo AI Free NoLogin online

Se encontrar um erro, escolha outro

Chatbot de imagem com Molmo-7B

Chatbot de imagem com o MolmoE-1B

Modelo de linguagem visual - Molmo

ColPali fine-tuning Query Generator ColPali é uma nova abordagem muito interessante para a recuperação de documentos multimodais, que visa substituir os recuperadores de documentos existentes, que muitas vezes dependem de uma etapa de OCR, por uma abordagem multimodal de ponta a ponta.

Molmo :Pesos abertos e dados abertos
para modelos multimodais de última geração

O Molmo é um modelo de IA multimodal de código aberto recentemente lançado, desenvolvido pelo Allen Institute for Artificial Intelligence (Ai2). Anunciado em 25 de setembro de 2024, ele visa fornecer recursos de alto desempenho, mantendo um tamanho de modelo significativamente menor em comparação com outros sistemas de IA líderes, como o GPT-4o da OpenAI e o Gemini 1.5 Pro do Google. há três versões do modelo Molmo ai:

  • MolmoE-1B: Um modelo de mistura de peritos com mil milhões de parâmetros activos.
  • Molmo-7B-O: A versão mais acessível com 7 mil milhões de parâmetros.
  • Molmo-72B: A versão com melhor desempenho, com 72 mil milhões de parâmetros

MolmoE-1B: Um modelo de mistura de peritos com mil milhões de parâmetros activos.

Molmo-7B-O: A versão mais acessível com 7 mil milhões de parâmetros.

Molmo-72B: A versão com melhor desempenho, com 72 mil milhões de parâmetros

Comparação da abertura VLM Molmo AI com melhor desempenho do que GPT-4o, Gemini 1.5 Pro e Claude 3.5

Caracterizamos a abertura dos MVR com base em dois atributos (pesos abertos, dados abertos e
código) em três componentes do modelo (o VLM e os seus dois componentes pré-treinados, a espinha dorsal do LLM e o codificador de visão). Para além de aberto vs. fechado, utilizamos o rótulo "destilado" para indicar que os dados utilizados para treinar o VLM incluem imagens e texto gerados por um VLM diferente e proprietário, o que significa que o modelo não pode ser reproduzido sem uma dependência do VLM proprietário

O que é que as pessoas falam sobre PixelDance nas redes sociais

Perguntas frequentes sobre o Molmo

O Molmo é um modelo de IA multimodal de código aberto desenvolvido pelo Allen Institute for Artificial Intelligence (Ai2) que tem um desempenho superior a Lhama 3.2 e está disponível sob a licença Apache 2.0.

O Molmo tem um desempenho superior Lhama 3.2 e foi concebido para ser mais eficiente com uma arquitetura mais simples que é presumivelmente compatível com a atenção flash.

Todos os modelos Molmo são lançados ao abrigo da licença Apache 2.0 e estão disponíveis em Hugging Face.

O Molmo está disponível em quatro variantes principais: MolmoE-1B (uma mistura de modelos de especialistas), Molmo-7B-O, Molmo-7B-D e Molmo-72B. A versão 72B é baseada no Qwen2-72B e utiliza o OpenAI CLIP como base de visão.

O Molmo centra-se na qualidade dos dados e não na quantidade, utilizando descrições de imagens baseadas na fala para dados de formação de alta qualidade do conjunto de dados PixMo.

O Molmo consegue compreender interfaces de utilizador e apontar para o que vê. É excelente no processamento simultâneo de texto e imagens, permitindo aos utilizadores fazer perguntas sobre imagens para tarefas como a identificação de objectos ou a contagem de itens numa cena.

O Molmo foi avaliado em 11 referências académicas e através de 325.231 comparações humanas entre pares, demonstrando o seu desempenho e a preferência dos utilizadores.

Sim, pode experimentar modelos divertidos e poderosos como : Difusores Imagem Outpaint , Llama3.2 , Qwen2.5

Experimente o melhor modelo de IA grátis online em 8PixLabs

Mais publicações recentes sobre modelos de IA