Meta เพิ่งเปิดตัว Sora ของตัวเองก่อน OpenAI – Meta Movie Gen
Meta Movie Gen มีทุกอย่างที่ Sora มี รวมถึงความสามารถในการสร้างวิดีโอ HD ยาวๆ ที่มีอัตราส่วนภาพต่างกัน และรองรับ 1080p 16 วินาที และ 16 เฟรมต่อวินาที
นอกจากนี้ยังทำสิ่งที่ Sora ไม่ทำ นั่นคือ การสร้างดนตรีประกอบและเอฟเฟกต์เสียง ตัดต่อวิดีโอตามคำสั่งข้อความ และสร้างวิดีโอส่วนตัวตามรูปภาพที่ผู้ใช้อัปโหลด
มาดูกันว่าเมตาสามารถทำอะไรได้บ้าง:
กล้องอยู่ด้านหลังชายคนหนึ่ง ชายคนนี้เปลือยท่อนบน สวมผ้าสีเขียวไว้รอบเอว เขาเดินเท้าเปล่า เขาถือวัตถุที่ลุกเป็นไฟไว้ในมือแต่ละข้าง เคลื่อนไหวเป็นวงกลมกว้างๆ มีทะเลสงบอยู่เบื้องหลัง บรรยากาศชวนหลงใหลด้วยการเต้นรำแห่งไฟ
หมีโคอาล่าขนฟูสีเทาและสีขาวมีจมูกกลมกำลังเล่นเซิร์ฟบอร์ดสีเหลือง หมีโคอาล่าใช้อุ้งเท้าเกาะกระดานโต้คลื่นและแสดงสีหน้ามุ่งมั่นขณะขี่คลื่น ดวงอาทิตย์กำลังส่องแสง
ลิงหน้าแดงขนสีขาวกำลังเพลิดเพลินกับการแช่น้ำพุร้อนธรรมชาติ ลิงขี้เล่นกำลังสนุกสนานกับเรือใบไม้ขนาดเล็กพร้อมใบเรือสีขาวและหางเสือขนาดเล็ก น้ำพุร้อนตั้งอยู่ท่ามกลางต้นไม้เขียวขจี ล้อมรอบด้วยหินและต้นไม้
พูดอย่างง่ายๆ ว่า “วางแสงลงบนฟองอากาศบนท้องฟ้า” สามารถสร้างเอฟเฟกต์ภาพที่สวยงามได้ และในขณะเดียวกันก็แสดงวัตถุในฉากได้อย่างสมบูรณ์แบบ และในเวลาเดียวกันยังสามารถสะท้อนท้องฟ้าได้อย่างสวยงามและดูมีชีวิตชีวามากขึ้น
ฟ้าร้องเสียงดังสนั่น พร้อมด้วยเสียงดนตรีบรรเลงประกอบ
ความสอดคล้องของตัวละครมีความแข็งแกร่งมาก
คุณสามารถแก้ไขวิดีโอได้โดยตรง เพียงพิมพ์ข้อความ
สร้างเอฟเฟกต์เสียงและเพลงประกอบ เพียงป้อนข้อความ
ใช้อินพุตวิดีโอและข้อความเพื่อสร้างเสียงสำหรับวิดีโอของคุณ Movie Gen ช่วยให้คุณสร้างและขยายเอฟเฟกต์เสียง เพลงประกอบ หรือเพลงประกอบทั้งหมด
Meta กล่าวว่านี่เป็นโมเดล Media Foundation ที่ล้ำหน้าที่สุดจนถึงปัจจุบัน
บางคนบอกว่าเป็นเรื่องยากที่จะจินตนาการว่าวิดีโอแบบยาวและสั้นจะมีลักษณะเป็นอย่างไรในอีกไม่กี่ปีข้างหน้า เนื่องจากผู้สร้างจำนวนมากเรียนรู้ที่จะใช้เครื่องมือตัดต่อวิดีโอด้วย AI
คราวนี้ ต่างจาก Sora ที่มีแค่เวอร์ชันสาธิตและบล็อกอย่างเป็นทางการ Meta ได้เปิดเผยรายละเอียดเกี่ยวกับสถาปัตยกรรมและการฝึกอบรมต่อสาธารณะในเอกสารจำนวน 92 หน้า
https://arxiv.org/pdf/2410.02746
แต่โมเดลดังกล่าวนั้นยังไม่ได้เป็นโอเพ่นซอร์ส และถูกวิศวกรที่ทำหน้าโอบกอดพร้อมทั้งวางลิงก์ไปยังโฮมเพจโอเพ่นซอร์สของ Meta ไว้ในส่วนความคิดเห็นโดยตรง:
อยู่ที่นี่รอคุณอยู่ตอนนี้
ในเอกสาร Meta เน้นย้ำโดยเฉพาะว่าการปรับขนาดของข้อมูล ขนาดของโมเดล และเลขคณิตในการฝึกเป็นสิ่งสำคัญสำหรับการฝึกโมเดลการสร้างสื่อขนาดใหญ่ การปรับปรุงมิติเหล่านี้อย่างเป็นระบบทำให้สามารถสร้างระบบการสร้างสื่อที่มีประสิทธิภาพได้
สิ่งที่น่ากังวลที่สุดประการหนึ่งก็คือ ครั้งนี้พวกเขาทิ้งโมเดลการแพร่กระจายและฟังก์ชันการสูญเสียการแพร่กระจายไปโดยสิ้นเชิง โดยใช้หม้อแปลงเป็นเครือข่ายหลักและการจับคู่การไหลเป็นเป้าหมายในการฝึกอบรม
พื้นที่การสร้างวิดีโอด้วย AI ได้รับความสนใจอย่างคึกคักในช่วงสองสามวันที่ผ่านมา
ไม่นานก่อนที่ Meta จะเปิดตัว Movie Gen Tim Brooks หนึ่งในผู้สร้าง OpenAI Sora ได้ย้ายไปที่ Google DeepMind เพื่อทำงานเกี่ยวกับการสร้างวิดีโอและจำลองโลกต่อไป
สิ่งนี้ทำให้หลายคนคิด เหมือนกับตอนที่ Google ปล่อยแอป Big Model ช้า และผู้เขียน Transformer 8 ก็พากันออกไปเป็นจำนวนมาก
ตอนนี้ OpenAI มาช้าในการเปิดตัว Sora และผู้เขียนหลักก็หนีไปเช่นกัน
แต่คนอื่นๆ เชื่อว่าการที่ Tim Brooks เลือกที่จะลาออกตอนนี้ อาจบ่งบอกว่างานหลักของเขาที่ OpenAI เสร็จสิ้นแล้ว และทำให้เกิดการคาดเดาต่างๆ ขึ้น:
การเปิดตัวของ Meta บังคับให้ OpenAI ปล่อย Sora ออกมาเพื่อตอบสนองหรือไม่?
(ณ ขณะที่เขียนนี้ ผู้สร้างอีกคนของ Sora อย่าง Bill Peebles ยังไม่ได้ออกมาพูด)
ขณะนี้ Meta ได้เปิดตัวโมเดลที่มีความสามารถในการตัดต่อวิดีโอแล้ว รวมถึงอัปเดต Pika 1.5 ในวันที่ 1 ตุลาคม ซึ่งมุ่งเน้นที่การเพิ่มเอฟเฟกต์ฟิสิกส์ เช่น การละลาย การขยาย และการบีบอัดให้กับวัตถุในวิดีโอ
ไม่ใช่เรื่องยากที่จะเห็นว่าครึ่งหลังของการสร้างวิดีโอด้วย AI กำลังจะเริ่มมุ่งสู่การตัดต่อวิดีโอด้วย AI