Molmo AI: Model AI Bahasa Terbuka Multimodal SOTA 

Molmo Keluarga model visi-bahasa terbuka yang dikembangkan oleh Allen Institute for AI. OpenSource

MolmoAI didasarkan pada Qwen2

Molmo AI Gratis Tanpa Login online

Jika Anda mengalami kesalahan, silakan pilih yang lain

Chatbot Gambar dengan Molmo-7B

Gambar Chatbot dengan MolmoE-1B

Model Bahasa Visual – Molmo

ColPali fine-tuning Query Generator ColPali adalah pendekatan baru yang sangat menarik untuk pengambilan dokumen multimoda yang bertujuan untuk mengganti pengambil dokumen yang ada yang sering kali mengandalkan langkah OCR dengan pendekatan multimoda ujung ke ujung.

Molmo: Bobot Terbuka dan Data Terbuka
untuk Model Multimoda Tercanggih

Molmo adalah model AI multimodal sumber terbuka yang baru dirilis yang dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2). Diumumkan pada tanggal 25 September 2024, model ini bertujuan untuk menyediakan kemampuan berkinerja tinggi dengan tetap mempertahankan ukuran model yang jauh lebih kecil dibandingkan dengan sistem AI terkemuka lainnya, seperti GPT-4o milik OpenAI dan Gemini 1.5 Pro milik Google. Ada tiga versi model AI Molmo:

  • MolmoE-1B: Campuran model para ahli dengan 1 miliar parameter aktif.
  • Molmo-7B-O: Versi yang paling mudah diakses dengan 7 miliar parameter.
  • Pesawat Molmo-72B: Versi dengan kinerja terbaik dengan 72 miliar parameter

MolmoE-1B: Campuran model para ahli dengan 1 miliar parameter aktif.

Molmo-7B-O: Versi yang paling mudah diakses dengan 7 miliar parameter.

Pesawat Molmo-72B: Versi dengan kinerja terbaik dengan 72 miliar parameter

Perbandingan Keterbukaan VLM Molmo AI Mengungguli GPT-4o, Gemini 1.5 Pro & Claude 3.5

Kami mengkarakterisasi keterbukaan VLM berdasarkan dua atribut (bobot terbuka, data terbuka dan
kode) di tiga komponen model (VLM dan dua komponen pra-latihannya, tulang punggung LLM dan encoder visi). Selain terbuka vs. tertutup, kami menggunakan label "disuling" untuk menunjukkan bahwa data yang digunakan untuk melatih VLM mencakup gambar dan teks yang dihasilkan oleh VLM milik sendiri yang berbeda, yang berarti bahwa model tersebut tidak dapat direproduksi tanpa ketergantungan pada VLM milik sendiri.

Apa yang dibicarakan orang-orang tentang PixelDance di Media Sosial

Pertanyaan Umum Tentang Molmo

Molmo adalah model AI multimodal sumber terbuka yang dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) yang mengungguli Llama 3.2 dan tersedia di bawah lisensi Apache 2.0.

Molmo mengungguli Llama 3.2 dan dirancang agar lebih efisien dengan arsitektur yang lebih sederhana yang mungkin kompatibel dengan perhatian kilat.

Semua model Molmo dirilis di bawah lisensi Apache 2.0 dan tersedia di Hugging Face.

Molmo hadir dalam empat varian utama: MolmoE-1B (campuran model pakar), Molmo-7B-O, Molmo-7B-D, dan Molmo-72B. Versi 72B didasarkan pada Qwen2-72B dan menggunakan OpenAI CLIP sebagai tulang punggung visinya.

Molmo berfokus pada kualitas data daripada kuantitas, menggunakan deskripsi gambar berbasis ucapan untuk data pelatihan berkualitas tinggi dari kumpulan data PixMo.

Molmo dapat memahami antarmuka pengguna dan mengarahkan apa yang dilihatnya. Ia unggul dalam memproses teks dan gambar secara bersamaan, yang memungkinkan pengguna mengajukan pertanyaan tentang gambar untuk tugas seperti identifikasi objek atau menghitung item dalam suatu adegan.

Molmo dievaluasi berdasarkan 11 tolok ukur akademis dan melalui 325.231 perbandingan berpasangan manusia, yang menunjukkan kinerja dan preferensi pengguna.

Ya, Anda dapat Mengalami Model Menyenangkan dan Kuat seperti: Pencemaran Gambar Diffuser , Llama3.2 , Qwen2.5

Rasakan Model AI Terbaik Gratis Online Di 8PixLabs

Lebih Banyak Posting Model AI Baru-baru ini