أطلقت Meta للتو Sora الخاصة بها قبل OpenAI – Meta Movie Gen
يتمتع Meta Movie Gen بكل ما يتمتع به Sora، بما في ذلك القدرة على إنشاء مقاطع فيديو عالية الدقة طويلة بنسب عرض إلى ارتفاع مختلفة ودعم 1080 بكسل و16 ثانية و16 إطارًا في الثانية.
كما أنه يقوم بما لا يفعله Sora، مثل إنشاء موسيقى خلفية مصاحبة وتأثيرات صوتية، وتحرير مقاطع الفيديو بناءً على أوامر نصية، وإنشاء مقاطع فيديو مخصصة بناءً على الصور التي قام المستخدم بتحميلها.
دعونا نرى ما يمكن أن يفعله ميتا:
الكاميرا خلف رجل. الرجل عاري الصدر، يرتدي قطعة قماش خضراء حول خصره. حافي القدمين. يحمل في يديه جسمًا ناريًا، ويقوم بحركات دائرية واسعة. البحر هادئ في الخلفية. الجو ساحر، مع رقصة النار.
دب كوالا رقيق ذو فراء رمادي وأبيض وأنف مستدير يمارس رياضة ركوب الأمواج على لوح أصفر. يمسك الكوالا بلوح الأمواج بمخالبه وله تعبير وجهي محدد وهو يركب الأمواج. الشمس مشرقة.
يستمتع قرد أحمر الوجه ذو فراء أبيض بالاستحمام في ينبوع ساخن طبيعي. يستمتع القرد المرح بقارب شراعي خشبي صغير، مزود بشراع أبيض ودفة صغيرة. يقع الينبوع الساخن وسط مساحات خضراء مورقة، وتحيط به الصخور والأشجار.
ببساطة، "وضع الضوء على الفقاعات في السماء" يمكن أن يخلق تأثيرات بصرية جميلة، وفي الوقت نفسه يظهر الأشياء في المشهد بشكل مثالي، وفي الوقت نفسه يمكن أن يعكس السماء بشكل جميل، ويبدو أكثر تعبيرا.
يصدر الرعد صوتًا عاليًا، مصحوبًا بمقطوعة موسيقية أوركسترالية.
اتساق الشخصية قوي جدًا.
يمكنك تحرير مقاطع الفيديو مباشرة، فقط عن طريق كتابة النص.
إنشاء المؤثرات الصوتية والموسيقى التصويرية فقط أدخل النص
استخدم إدخال الفيديو والنص لإنشاء الصوت للفيديو الخاص بك. يتيح لك Movie Gen إنشاء وتوسيع المؤثرات الصوتية أو الموسيقى الخلفية أو المقطوعات الصوتية بالكامل.
وتقول شركة ميتا إنها نماذج مؤسسة الإعلام الأكثر تقدماً حتى الآن.
يقول البعض أنه من الصعب تصور كيف ستبدو مقاطع الفيديو الطويلة والقصيرة خلال بضع سنوات مع تعلم عدد كبير من المبدعين كيفية استخدام أدوات تحرير الفيديو بالذكاء الاصطناعي.
هذه المرة، وعلى عكس Sora، الذي لا يحتوي إلا على نسخة تجريبية ومدونة رسمية، جعلت Meta تفاصيل الهندسة المعمارية والتدريب عامة في ورقة مكونة من 92 صفحة.
https://arxiv.org/pdf/2410.02746
لكن النموذج نفسه ليس مفتوح المصدر بعد، وقد استقبله المهندسون باحتضان وجوههم ورفعوا وجوههم في الهواء وأسقطوا رابطًا إلى الصفحة الرئيسية مفتوحة المصدر لـ Meta مباشرة في قسم التعليقات:
في انتظارك الآن.
في ورقتها البحثية، تؤكد شركة Meta بشكل خاص على أن قياس حجم البيانات وحجم النموذج وحسابات التدريب أمر بالغ الأهمية لتدريب نماذج توليد الوسائط واسعة النطاق. ومن خلال تحسين هذه الأبعاد بشكل منهجي، من الممكن إنشاء نظام توليد وسائط قوي كهذا.
أحد أكثر النقاط المثيرة للقلق هو أنهم هذه المرة تخلوا تمامًا عن نموذج الانتشار ووظيفة فقدان الانتشار، واستخدموا Transformer كشبكة أساسية وFlow Matching كهدف للتدريب.
لقد كان مجال إنشاء مقاطع الفيديو بالذكاء الاصطناعي مليئًا بالنشاط على مدار الأيام القليلة الماضية.
قبل وقت قصير من إصدار Meta لتطبيق Movie Gen، انتقل تيم بروكس، أحد مبتكري OpenAI Sora، إلى Google DeepMind لمواصلة عمله في مجال إنشاء الفيديو ومحاكاة العالم.
وقد دفع هذا الكثير من الناس إلى التفكير، تمامًا كما حدث عندما كانت Google بطيئة في إصدار تطبيق Big Model وغادر مؤلفو Transformer 8 بأعداد كبيرة.
الآن تأخرت شركة OpenAI في إصدار Sora، كما هرب المؤلفون الرئيسيون أيضًا.
لكن آخرين يعتقدون أن اختيار تيم بروكس للمغادرة الآن قد يشير إلى أن عمله الرئيسي في OpenAI قد انتهى، مما أدى إلى تكهنات:
هل أجبر إطلاق Meta OpenAI على إطلاق Sora ردًا على ذلك؟
(حتى كتابة هذه السطور، لم يتحدث بعد مبتكر سورا الآخر، بيل بيبلز.)
وقد أصدرت Meta الآن نماذج ذات إمكانيات تحرير الفيديو، بالإضافة إلى تحديث Pika 1.5 في الأول من أكتوبر، والذي يركز على إضافة تأثيرات فيزيائية مثل الذوبان والتوسع والضغط على الكائنات في مقاطع الفيديو.
ليس من الصعب أن نرى أن النصف الثاني من جيل الفيديو بالذكاء الاصطناعي سيبدأ بالتوجه نحو تحرير الفيديو بالذكاء الاصطناعي.