몰모 AI: SOTA 멀티모달 오픈 언어 AI 모델

앨런 AI 연구소에서 개발한 개방형 비전 언어 모델인 Molmo 제품군입니다. 오픈 소스

몰모AI는 다음을 기반으로 합니다. Qwen2

몰모 AI 무료 노로그인 온라인

오류가 발생하면 다른 것을 선택하십시오.

이미지 챗봇
이미지 챗봇
시각 언어 모델
문서 검색

몰모-7B를 사용한 이미지 챗봇

이미지 챗봇과 MolmoE-1B

시각 언어 모델 - 몰모

콜팔리 쿼리 생성기 미세 조정 콜팔리는 종종 OCR 단계에 의존하는 기존 문서 검색기를 엔드투엔드 멀티모달 접근 방식으로 대체하는 것을 목표로 하는 멀티모달 문서 검색에 대한 매우 흥미로운 새로운 접근 방식입니다.

몰모 : 오픈 가중치 및 오픈 데이터
최첨단 멀티모달 모델용

몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 새로운 오픈소스 멀티모달 AI 모델입니다. 2024년 9월 25일에 발표된 이 모델은 OpenAI의 GPT-4o 및 Google의 Gemini 1.5 Pro와 같은 다른 주요 AI 시스템에 비해 훨씬 작은 모델 크기를 유지하면서 고성능 기능을 제공하는 것을 목표로 합니다. 몰모 AI 모델에는 세 가지 버전이 있습니다:

MolmoE-1B: 10억 개의 활성 매개 변수가 있는 전문가 모델 혼합.
Molmo-7B-O: 70억 개의 매개변수가 있는 가장 접근하기 쉬운 버전입니다.
Molmo-72B: 720억 개의 파라미터를 지원하는 최고 성능의 버전

MolmoE-1B: 10억 개의 활성 매개 변수가 있는 전문가 모델 혼합.

Molmo-7B-O: 70억 개의 매개변수가 있는 가장 접근하기 쉬운 버전입니다.

Molmo-72B: 720억 개의 파라미터를 지원하는 최고 성능의 버전

GPT-4o, Gemini 1.5 Pro 및 Claude 3.5를 능가하는 Molmo AI의 VLM 개방성 비교

두 가지 속성(개방형 가중치, 개방형 데이터 및
코드)를 세 가지 모델 구성 요소(VLM과 사전 학습된 두 가지 구성 요소, LLM 백본 및 비전 인코더)에 걸쳐 사용합니다. 개방형과 폐쇄형 외에도 "증류형" 레이블을 사용하여 VLM을 학습하는 데 사용되는 데이터에 다른 독점 VLM에서 생성된 이미지와 텍스트가 포함되어 있음을 나타내며, 이는 독점 VLM에 종속되지 않고는 모델을 재현할 수 없음을 의미합니다.

소셜 미디어에서 픽셀댄스에 대한 사람들의 이야기

Molmo 작성자 @allen_ai - 오픈 소스 SoTA 멀티모달(비전) 언어 모델, 클로드 3.5 소네트, GPT4V를 능가하고 GPT4o와 유사한 모델 🔥.

네 가지 모델 체크포인트를 출시합니다:

1. 전문가 모델 1B(활성) 7B(총)의 혼합 모델인 MolmoE-1B
2. Molmo-7B-O, 가장 개방적인 7B 모델
3.... pic.twitter.com/9hpARh0GYT
- 바이브하브(VB) 스리바스타브(@reach_vb) 2024년 9월 25일

몰모를 만나보세요 🔥🔥

오픈 소스이며 강력하고 누구나 무료로 사용할 수 있는 최첨단 멀티모달 AI입니다.

몰모 모델을 사용하여 물체를 감지하는 로봇의 놀라운 데모를 확인하세요.

웹사이트에 무료 호스팅 버전이 있어 이미지에서 텍스트로 및 텍스트에서 이미지로 모델을 사용해 볼 수 있습니다. 저는... pic.twitter.com/Qx7hp1rtcb
- 프라샨트 (@Prashant_1722) 2024년 9월 27일

어제 @allen_ai 개방형 최첨단 멀티모달 AI 모델 제품군인 Malmo 출시

포인팅은 이미지 픽셀에 기반한 자연스러운 설명을 제공합니다.

말모에게 물체를 감지하거나 세도록 요청하면 감지된 물체를 점으로 표시합니다.

링크: https://t.co/LsUsZ2ghNT pic.twitter.com/d3ETnAS670
- 스칼스키프 (@skalskip92) 2024년 9월 26일

Molmo 작성자 @allen_ai - SOTA 멀티모달 모델

🤗개방형 모델 및 부분 개방형 데이터
🤏7B 및 72B 모델 크기(+7B MoE, 1B 활성 매개변수 사용)
🤯GPT-4V, 플래시 등의 벤치마크 이상
🗣️Human 상위 API 모델과 동등한 72B의 선호도
🧠캡션 제작을 위한 고품질 데이터 세트, PixMo... pic.twitter.com/faqvCkAmsb
- 오마르 산세비에로 (@osanseviero) 2024년 9월 25일

사용해 보기 @allen_ai의 Molmo VLM을 지금 바로 Open GRID에서 사용해보세요! Molmo와 같은 VLM은 로봇에 풍부한 시맨틱 지식을 제공하여 로봇이 사용자 쿼리에 응답하고 복잡한 환경을 쉽게 해석할 수 있게 해줍니다. 지금 바로 GRID에서 최첨단 AI 모델을 사용하여 자율 AI 솔루션을 확장하세요! https://t.co/q9szAT1PiG pic.twitter.com/XuyYpMhQ8D
- 스케일드 파운데이션 (@ScaFoAI) 2024년 9월 27일

라마 3.2는 어제 가장 흥미로운 멀티모달 릴리스가 아니었을지도 모릅니다. 🤔 Molmo @allen_ai 는 Apache 2.0과 EU에서 사용 가능한 Llama 3.2보다 성능이 뛰어나며, 데이터를 공개하고, 사용자 정의 ELO 평가를 생성하며, mllama3.2보다 더 간단한 아키텍처를 제공합니다. pic.twitter.com/du63zXjQcN
- 필립 슈미드 (@_philschmid) 2024년 9월 26일

몰모에 관해 자주 묻는 질문

몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 오픈소스 멀티모달 AI 모델로, 다음과 같이 뛰어난 성능을 발휘합니다. 라마 3.2 Apache 2.0 라이선스에 따라 제공됩니다.

뛰어난 성능의 몰모 라마 3.2 플래시 주의와 호환되는 것으로 추정되는 더 단순한 아키텍처로 더 효율적으로 설계되었습니다.

모든 Molmo 모델은 Apache 2.0 라이선스에 따라 출시되며 Hugging Face에서 사용할 수 있습니다.

몰모는 네 가지 주요 변형이 있습니다: 몰모E-1B(전문가 모델 혼합), 몰모-7B-O, 몰모-7B-D, 몰모-72B. 72B 버전은 Qwen2-72B를 기반으로 하며 OpenAI CLIP을 비전 백본으로 사용합니다.

몰모는 양보다는 데이터의 질에 중점을 두며, PixMo 데이터 세트의 고품질 학습 데이터에 음성 기반 이미지 설명을 사용합니다.

몰모는 사용자 인터페이스를 이해하고 보이는 대상을 가리킬 수 있습니다. 텍스트와 이미지를 동시에 처리하는 능력이 뛰어나 사용자가 물체 식별이나 장면 내 항목 수 세기와 같은 작업을 위해 이미지에 대해 질문할 수 있습니다.

몰모는 11개의 학술 벤치마크와 325,231명의 인간 쌍별 비교를 통해 성능과 사용자 선호도를 평가받았습니다.

예, 재미있고 강력한 모델을 경험할 수 있습니다: 디퓨저 이미지 아웃페인트 , Llama3.2 , Qwen2.5

최고의 AI 모델을 온라인에서 무료로 체험하세요. 8PixLabs

최근 AI 모델 게시물 더 보기