Molmo AI: Model AI Bahasa Terbuka Multimodal SOTA

Molmo Keluarga model visi-bahasa terbuka yang dikembangkan oleh Allen Institute for AI. OpenSource

MolmoAI didasarkan pada Qwen2

Molmo AI Gratis Tanpa Login online

Jika Anda mengalami kesalahan, silakan pilih yang lain

Chatbot Gambar
Chatbot Gambar
Model Bahasa Visual
Pengambilan dokumen

Chatbot Gambar dengan Molmo-7B

Gambar Chatbot dengan MolmoE-1B

Model Bahasa Visual – Molmo

ColPali fine-tuning Query Generator ColPali adalah pendekatan baru yang sangat menarik untuk pengambilan dokumen multimoda yang bertujuan untuk mengganti pengambil dokumen yang ada yang sering kali mengandalkan langkah OCR dengan pendekatan multimoda ujung ke ujung.

Molmo: Bobot Terbuka dan Data Terbuka
untuk Model Multimoda Tercanggih

Molmo adalah model AI multimodal sumber terbuka yang baru dirilis yang dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2). Diumumkan pada tanggal 25 September 2024, model ini bertujuan untuk menyediakan kemampuan berkinerja tinggi dengan tetap mempertahankan ukuran model yang jauh lebih kecil dibandingkan dengan sistem AI terkemuka lainnya, seperti GPT-4o milik OpenAI dan Gemini 1.5 Pro milik Google. Ada tiga versi model AI Molmo:

MolmoE-1B: Campuran model para ahli dengan 1 miliar parameter aktif.
Molmo-7B-O: Versi yang paling mudah diakses dengan 7 miliar parameter.
Pesawat Molmo-72B: Versi dengan kinerja terbaik dengan 72 miliar parameter

MolmoE-1B: Campuran model para ahli dengan 1 miliar parameter aktif.

Molmo-7B-O: Versi yang paling mudah diakses dengan 7 miliar parameter.

Pesawat Molmo-72B: Versi dengan kinerja terbaik dengan 72 miliar parameter

Perbandingan Keterbukaan VLM Molmo AI Mengungguli GPT-4o, Gemini 1.5 Pro & Claude 3.5

Kami mengkarakterisasi keterbukaan VLM berdasarkan dua atribut (bobot terbuka, data terbuka dan
kode) di tiga komponen model (VLM dan dua komponen pra-latihannya, tulang punggung LLM dan encoder visi). Selain terbuka vs. tertutup, kami menggunakan label "disuling" untuk menunjukkan bahwa data yang digunakan untuk melatih VLM mencakup gambar dan teks yang dihasilkan oleh VLM milik sendiri yang berbeda, yang berarti bahwa model tersebut tidak dapat direproduksi tanpa ketergantungan pada VLM milik sendiri.

Apa yang dibicarakan orang-orang tentang PixelDance di Media Sosial

Molmo oleh @allen_ai – Model Bahasa SoTA Multimodal (Vision) sumber terbuka, mengalahkan Claude 3.5 Sonnet, GPT4V dan sebanding dengan GPT4o 🔥

Mereka merilis empat model titik pemeriksaan:

1. MolmoE-1B, campuran model ahli dengan 1B (aktif) 7B (total)
2. Molmo-7B-O, model 7B paling terbuka
3.… foto.twitter.com/9hpARh0GYT
— Vaibhav (VB) Srivastav (@reach_vb) 25 Sep 2024

Temui MOLMO 🔥🔥

AI multimodal mutakhir yang bersumber terbuka, canggih, dan gratis untuk semua orang.

lihat demo robot yang menakjubkan ini yang menggunakan model Molmo untuk mendeteksi objek.

Mereka memiliki versi hosting gratis di situs web untuk mencoba model dengan Image to Text dan Text to Image. Saya… foto.twitter.com/Qx7hp1rtcb
— Prashant (@Prashant_1722) 27 Sep 2024

Kemarin @allen_ai merilis Malmo – keluarga model AI multimodal terbuka yang canggih

menunjuk memberikan penjelasan alami yang didasarkan pada piksel gambar

ketika Anda meminta Malmo untuk mendeteksi atau menghitung objek, itu akan menandai objek yang terdeteksi dengan poin

link: https://t.co/LsUsZ2ghNT foto.twitter.com/d3ETnAS670
— SkalskiP (@skalskip92) 26 Sep 2024

Molmo oleh @allen_ai – model multimoda SOTA

🤗Model terbuka dan sebagian data terbuka
Ukuran model 7B dan 72B (+7B MoE dengan 1B parameter aktif)
🤯Benchmark di atas GPT-4V, Flash, dll.
🗣️Preferensi Manusia 72B setara dengan model API teratas
🧠PixMo, kumpulan data berkualitas tinggi untuk teks terjemahan… foto.twitter.com/faqvCkAmsb
— Omar Sanseviero (@osanseviero) 25 Sep 2024

Mencoba @allen_aiMolmo VLM kini tersedia di Open GRID! VLM seperti Molmo menghadirkan lapisan pengetahuan semantik yang kaya bagi robot – yang memungkinkan mereka menanggapi permintaan pengguna dan menginterpretasikan lingkungan yang kompleks dengan mudah. Skalakan solusi AI otonom dengan model AI canggih di GRID hari ini! https://t.co/q9szAT1PiG foto.twitter.com/XuyYpMhQ8D
— Fondasi Berskala (@ScaFoAI) 27 Sep 2024

Llama 3.2 mungkin bukan rilis multimoda paling menarik kemarin. 🤔 Molmo dari @allen_ai mengungguli Llama 3.2, tersedia di bawah Apache 2.0 dan di UE, akan merilis data mereka, membuat evaluasi ELO khusus, dan arsitektur yang lebih sederhana daripada mllama3.2 yang mungkin… foto.twitter.com/du63zXjQcN
— Philipp Schmid (@_philschmid) 26 Sep 2024

Pertanyaan Umum Tentang Molmo

Molmo adalah model AI multimodal sumber terbuka yang dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) yang mengungguli Llama 3.2 dan tersedia di bawah lisensi Apache 2.0.

Molmo mengungguli Llama 3.2 dan dirancang agar lebih efisien dengan arsitektur yang lebih sederhana yang mungkin kompatibel dengan perhatian kilat.

Semua model Molmo dirilis di bawah lisensi Apache 2.0 dan tersedia di Hugging Face.

Molmo hadir dalam empat varian utama: MolmoE-1B (campuran model pakar), Molmo-7B-O, Molmo-7B-D, dan Molmo-72B. Versi 72B didasarkan pada Qwen2-72B dan menggunakan OpenAI CLIP sebagai tulang punggung visinya.

Molmo berfokus pada kualitas data daripada kuantitas, menggunakan deskripsi gambar berbasis ucapan untuk data pelatihan berkualitas tinggi dari kumpulan data PixMo.

Molmo dapat memahami antarmuka pengguna dan mengarahkan apa yang dilihatnya. Ia unggul dalam memproses teks dan gambar secara bersamaan, yang memungkinkan pengguna mengajukan pertanyaan tentang gambar untuk tugas seperti identifikasi objek atau menghitung item dalam suatu adegan.

Molmo dievaluasi berdasarkan 11 tolok ukur akademis dan melalui 325.231 perbandingan berpasangan manusia, yang menunjukkan kinerja dan preferensi pengguna.

Ya, Anda dapat Mengalami Model Menyenangkan dan Kuat seperti: Pencemaran Gambar Diffuser , Llama3.2 , Qwen2.5

Rasakan Model AI Terbaik Gratis Online Di 8PixLabs

Lebih Banyak Posting Model AI Baru-baru ini