Molmo AI: โมเดล AI ภาษาเปิดหลายรูปแบบ SOTA 

Molmo Family ของโมเดลวิสัยทัศน์-ภาษาเปิดที่พัฒนาโดยสถาบัน Allen สำหรับ AI โอเพ่นซอร์ส

MolmoAI มีพื้นฐานมาจาก คเวน2

Molmo AI ฟรี ไม่ต้องเข้าสู่ระบบออนไลน์

หากคุณพบข้อผิดพลาดกรุณาเลือกข้อผิดพลาดอื่น

แชทบอทภาพกับ Molmo-7B

แชทบอทสร้างภาพด้วย MolmoE-1B

แบบจำลองภาษาภาพ – Molmo

การปรับแต่งเครื่องกำเนิดแบบสอบถาม ColPali ColPali เป็นแนวทางใหม่ที่น่าตื่นเต้นมากในการดึงข้อมูลเอกสารหลายโหมด ซึ่งมีเป้าหมายเพื่อแทนที่โปรแกรมดึงข้อมูลเอกสารที่มีอยู่ซึ่งมักจะต้องพึ่งขั้นตอน OCR ด้วยวิธีการหลายโหมดแบบครบวงจร

Molmo : น้ำหนักเปิดและข้อมูลเปิด
สำหรับโมเดลการขนส่งหลายรูปแบบที่ทันสมัยที่สุด

Molmo เป็นโมเดล AI แบบโอเพนซอร์สมัลติโหมดที่เพิ่งเปิดตัวใหม่ซึ่งพัฒนาโดยสถาบัน Allen Institute for Artificial Intelligence (Ai2) เปิดตัวเมื่อวันที่ 25 กันยายน 2024 โดยมีเป้าหมายเพื่อมอบความสามารถประสิทธิภาพสูงในขณะที่ยังคงขนาดโมเดลที่เล็กกว่าอย่างมากเมื่อเทียบกับระบบ AI ชั้นนำอื่นๆ เช่น GPT-4o ของ OpenAI และ Gemini 1.5 Pro ของ Google โมเดล AI ของ Molmo มี 3 เวอร์ชัน:

  • โมลโมอี-1บี:โมเดลผู้เชี่ยวชาญผสมที่มีพารามิเตอร์ที่ใช้งานอยู่ 1 พันล้านรายการ
  • โมลโม-7บี-โอ:เวอร์ชั่นที่เข้าถึงได้มากที่สุดพร้อมพารามิเตอร์ 7 พันล้านรายการ
  • โมลโม-72บี:เวอร์ชันประสิทธิภาพสูงสุดพร้อมพารามิเตอร์ 72 พันล้านรายการ

โมลโมอี-1บี:โมเดลผู้เชี่ยวชาญผสมที่มีพารามิเตอร์ที่ใช้งานอยู่ 1 พันล้านรายการ

โมลโม-7บี-โอ:เวอร์ชั่นที่เข้าถึงได้มากที่สุดพร้อมพารามิเตอร์ 7 พันล้านรายการ

โมลโม-72บี:เวอร์ชันประสิทธิภาพสูงสุดพร้อมพารามิเตอร์ 72 พันล้านรายการ

การเปรียบเทียบความเปิดกว้างของ VLM ระหว่าง Molmo AI ที่เอาชนะ GPT-4o, Gemini 1.5 Pro และ Claude 3.5

เรากำหนดลักษณะความเปิดกว้างของ VLM โดยอิงจากคุณลักษณะสองประการ (น้ำหนักเปิด ข้อมูลเปิด และ
รหัส) ในส่วนประกอบโมเดลสามส่วน (VLM และส่วนประกอบสองส่วนที่ผ่านการฝึกล่วงหน้า โครงกระดูกสันหลัง LLM และตัวเข้ารหัสภาพ) นอกจากการเปิดเทียบกับการปิดแล้ว เรายังใช้ป้ายกำกับ "กลั่น" เพื่อระบุว่าข้อมูลที่ใช้ฝึก VLM รวมถึงรูปภาพและข้อความที่สร้างโดย VLM ที่เป็นกรรมสิทธิ์อื่น ซึ่งหมายความว่าไม่สามารถสร้างโมเดลซ้ำได้หากไม่ขึ้นอยู่กับ VLM ที่เป็นกรรมสิทธิ์

ผู้คนกำลังพูดถึง PixelDance ในโซเชียลมีเดียอย่างไร

คำถามที่พบบ่อยเกี่ยวกับ Molmo

Molmo เป็นโมเดล AI แบบโอเพนซอร์สหลายโหมดที่พัฒนาโดยสถาบัน Allen Institute for Artificial Intelligence (Ai2) ซึ่งมีประสิทธิภาพเหนือกว่า ลามะ 3.2 และพร้อมใช้งานภายใต้ใบอนุญาต Apache 2.0

โมลโม่ทำผลงานเหนือกว่า ลามะ 3.2 และได้รับการออกแบบมาให้มีประสิทธิภาพมากขึ้นด้วยสถาปัตยกรรมที่เรียบง่ายซึ่งน่าจะเข้ากันได้กับแฟลชเอเจนต์

โมเดล Molmo ทั้งหมดเปิดตัวภายใต้ใบอนุญาต Apache 2.0 และมีจำหน่ายบน Hugging Face

Molmo มีสี่รุ่นหลัก ได้แก่ MolmoE-1B (รุ่นผสมของผู้เชี่ยวชาญ), Molmo-7B-O, Molmo-7B-D และ Molmo-72B โดยรุ่น 72B อิงตาม Qwen2-72B และใช้ OpenAI CLIP เป็นโครงกระดูกสันหลัง

Molmo มุ่งเน้นที่คุณภาพของข้อมูลมากกว่าปริมาณ โดยใช้คำอธิบายภาพแบบเสียงเพื่อฝึกอบรมคุณภาพสูงจากชุดข้อมูล PixMo

Molmo สามารถเข้าใจอินเทอร์เฟซผู้ใช้และชี้ไปที่สิ่งที่เห็นได้ โดดเด่นในการประมวลผลทั้งข้อความและรูปภาพพร้อมกัน ทำให้ผู้ใช้สามารถถามคำถามเกี่ยวกับรูปภาพสำหรับงานต่างๆ เช่น การระบุวัตถุหรือการนับรายการภายในฉาก

Molmo ได้รับการประเมินจากเกณฑ์มาตรฐานทางวิชาการ 11 รายการ และการเปรียบเทียบเป็นคู่โดยมนุษย์ 325,231 ราย เพื่อแสดงให้เห็นถึงประสิทธิภาพและความต้องการของผู้ใช้

ใช่ คุณสามารถสัมผัสกับโมเดลที่สนุกสนานและทรงพลัง เช่น: เครื่องกระจายกลิ่น Image Outpaint , ลามะ3.2 , คเวน2.5

สัมผัสประสบการณ์โมเดล AI ที่ดีที่สุดฟรีทางออนไลน์ 8PixLabs

โพสต์โมเดล AI เพิ่มเติมเมื่อเร็วๆ นี้