몰모 AI: SOTA 멀티모달 오픈 언어 AI 모델 

앨런 AI 연구소에서 개발한 개방형 비전 언어 모델인 Molmo 제품군입니다. 오픈 소스

몰모AI는 다음을 기반으로 합니다. Qwen2

몰모 AI 무료 노로그인 온라인

오류가 발생하면 다른 것을 선택하십시오.

몰모-7B를 사용한 이미지 챗봇

이미지 챗봇과 MolmoE-1B

시각 언어 모델 - 몰모

콜팔리 쿼리 생성기 미세 조정 콜팔리는 종종 OCR 단계에 의존하는 기존 문서 검색기를 엔드투엔드 멀티모달 접근 방식으로 대체하는 것을 목표로 하는 멀티모달 문서 검색에 대한 매우 흥미로운 새로운 접근 방식입니다.

몰모 : 오픈 가중치 및 오픈 데이터
최첨단 멀티모달 모델용

몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 새로운 오픈소스 멀티모달 AI 모델입니다. 2024년 9월 25일에 발표된 이 모델은 OpenAI의 GPT-4o 및 Google의 Gemini 1.5 Pro와 같은 다른 주요 AI 시스템에 비해 훨씬 작은 모델 크기를 유지하면서 고성능 기능을 제공하는 것을 목표로 합니다. 몰모 AI 모델에는 세 가지 버전이 있습니다:

  • MolmoE-1B: 10억 개의 활성 매개 변수가 있는 전문가 모델 혼합.
  • Molmo-7B-O: 70억 개의 매개변수가 있는 가장 접근하기 쉬운 버전입니다.
  • Molmo-72B: 720억 개의 파라미터를 지원하는 최고 성능의 버전

MolmoE-1B: 10억 개의 활성 매개 변수가 있는 전문가 모델 혼합.

Molmo-7B-O: 70억 개의 매개변수가 있는 가장 접근하기 쉬운 버전입니다.

Molmo-72B: 720억 개의 파라미터를 지원하는 최고 성능의 버전

GPT-4o, Gemini 1.5 Pro 및 Claude 3.5를 능가하는 Molmo AI의 VLM 개방성 비교

두 가지 속성(개방형 가중치, 개방형 데이터 및
코드)를 세 가지 모델 구성 요소(VLM과 사전 학습된 두 가지 구성 요소, LLM 백본 및 비전 인코더)에 걸쳐 사용합니다. 개방형과 폐쇄형 외에도 "증류형" 레이블을 사용하여 VLM을 학습하는 데 사용되는 데이터에 다른 독점 VLM에서 생성된 이미지와 텍스트가 포함되어 있음을 나타내며, 이는 독점 VLM에 종속되지 않고는 모델을 재현할 수 없음을 의미합니다.

소셜 미디어에서 픽셀댄스에 대한 사람들의 이야기

몰모에 관해 자주 묻는 질문

몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 오픈소스 멀티모달 AI 모델로, 다음과 같이 뛰어난 성능을 발휘합니다. 라마 3.2 Apache 2.0 라이선스에 따라 제공됩니다.

뛰어난 성능의 몰모 라마 3.2 플래시 주의와 호환되는 것으로 추정되는 더 단순한 아키텍처로 더 효율적으로 설계되었습니다.

모든 Molmo 모델은 Apache 2.0 라이선스에 따라 출시되며 Hugging Face에서 사용할 수 있습니다.

몰모는 네 가지 주요 변형이 있습니다: 몰모E-1B(전문가 모델 혼합), 몰모-7B-O, 몰모-7B-D, 몰모-72B. 72B 버전은 Qwen2-72B를 기반으로 하며 OpenAI CLIP을 비전 백본으로 사용합니다.

몰모는 양보다는 데이터의 질에 중점을 두며, PixMo 데이터 세트의 고품질 학습 데이터에 음성 기반 이미지 설명을 사용합니다.

몰모는 사용자 인터페이스를 이해하고 보이는 대상을 가리킬 수 있습니다. 텍스트와 이미지를 동시에 처리하는 능력이 뛰어나 사용자가 물체 식별이나 장면 내 항목 수 세기와 같은 작업을 위해 이미지에 대해 질문할 수 있습니다.

몰모는 11개의 학술 벤치마크와 325,231명의 인간 쌍별 비교를 통해 성능과 사용자 선호도를 평가받았습니다.

예, 재미있고 강력한 모델을 경험할 수 있습니다: 디퓨저 이미지 아웃페인트 , Llama3.2 , Qwen2.5

최고의 AI 모델을 온라인에서 무료로 체험하세요. 8PixLabs

최근 AI 모델 게시물 더 보기