PixelDance هو أفضل نموذج لتحويل النص إلى فيديو - 8PixLabs.com

ByteDance تطلق نموذج فيديو AI جديد – وداعا سورا، لقد مضى وقتك.

في هذه الأثناء، انتهى إطلاق محرك Volcano الخاص بـ ByteDance بشكل أساسي.
أنا متحمس قليلاً الآن.
على الرغم من أن الإطلاق قد انتهى، إلا أنني أشعر أن بداية جديدة لتعطيل الصناعة قد وصلت رسميًا في هذه اللحظة.

جدول المحتويات

أطلقت شركة ByteDance رسميًا نموذجين جديدين للفيديو بتقنية الذكاء الاصطناعي:

إنشاء فيديو Doubao – نموذج PixelDance ونموذج Seaweed.
سأتحدث أكثر عن نموذج Seaweed في المرة القادمة. هذه المرة، أريد أن أتحدث عن نموذج Doubao PixelDance لأنه رائع للغاية، رائع للغاية، لدرجة أنني شاهدته بدهشة طوال الوقت.

في اللحظة التي أعلنوا فيها عن هذا الأمر رسميًا، كان هناك الكثير من التصفيق حتى أنني شعرت وكأنني سأفجر سقف المنزل من على الشاشة.
في الواقع، إذا كان عليّ تلخيص نموذج Doubao PixelDance هذا، فسيكون في ثلاث كلمات:
حركة معقدة ومتواصلة للشخصيات، وفيديو مركب متعدد الكاميرات، وتحكم شديد بالكاميرا.
يبدو الأمر صعب الفهم بعض الشيء، أليس كذلك؟ لا داعي للتعجل، سأشرح الأمر بالتفصيل.

أولاً، وضعت بعض الحالات، حتى أشعر بالصدمة من هذا الشيء:

في الواقع، صناعة السينما والتلفزيون من قبل، لم تكن قادرة تقريبًا على استخدام الذكاء الاصطناعي، وذلك لأن أداء الشخصية رديء للغاية، واتساق المشهد والشخصية ضعيف للغاية، وتشغيل المرآة بصراحة ليس جيدًا.

والآن، تدخلت شركة ByteDance وأخذت فيديو الذكاء الاصطناعي إلى مستوى جديد تمامًا.

لقد وصلت تفردات الاضطراب الصناعي رسميًا اليوم، مع هذا الإطلاق نفسه.
وأنا، بعد حبس أنفاسي لمدة أربعة أيام كاملة، أستطيع أخيرا أن أرسل هذه المقالة.
نعم، قبل 4 أيام، تمت دعوتي من قبل ByteDance، وقمت بقياس نموذج Doubao PixelDance هذا مسبقًا، في ذلك الوقت، كنت في حالة صدمة لا يمكن وصفها بالكلمات، كما تعلمون، كمدون، بعد قياس مثل هذا الشيء المتغطرس، أريد بطبيعة الحال أن أكون أول من يشاركه، ولكن بسبب اتفاقية السرية، لا يمكنني إلا أن أقول كلمة واحدة عنه.
لذا فأنت تعلم مدى صعوبة الأمر بالنسبة لي في هذه الأيام الأربعة.
والآن كل شيء أصبح على ما يرام، وأخيرًا أستطيع التحدث.
العودة إلى تلك الميزات الثلاث الأكثر أهمية:
حركات معقدة ومتواصلة للشخصيات، ومقاطع فيديو مركبة باستخدام كاميرات متعددة، وتحكم شديد بالكاميرا.

يمكن للشخصيات القيام بعمل مستمر

في الماضي، كانت مقاطع الفيديو الخاصة بالذكاء الاصطناعي تحتوي على نقطة قاتلة للغاية، أي أنها تبدو مثل الرسوم المتحركة PPT.

سواء كان فيديو سورا، أو مدرج، أو كيلينج، وما إلى ذلك، فإن سعة الحركة، ولكن فقط سعة العدسة هي الكبيرة، لا توجد أبدًا حركة معقدة للأشخاص.
في بداية اليوم، استدر أو قم بالركض بسرعة أو لوح أو احتضن. بصراحة، لا يمكن للعديد من مقاطع الفيديو التي تعتمد على الذكاء الاصطناعي أن تفعل ذلك.
ماذا لو كانت الفتاة في الصورة، تخلع نظارتها الشمسية وتقف وتتجه نحو التمثال؟

جميع مقاطع الفيديو الخاصة بالذكاء الاصطناعي، كلها ميتة أثناء العمل.
وهذه المرة، نجح Doubao PixelDance في فعل ذلك، حرفيًا.

باستثناء بعض الوميض البسيط في الساعة الموجودة على اليد، كانت نسب الشخصية، والحركات، والأطراف، والإضاءة، وما إلى ذلك، خالية من العيوب تقريبًا.
تبدو المسرحية جيدة، وأداء الناس للأفعال هو الأهم.
على سبيل المثال، في فيلم ملك الكوميديا، في المشهد الأخير، بعد أن صرخت يين تيان شيو التي جسدها ستيفن تشاو بعبارة "سأدعمك" الكلاسيكية لليو بياو بياو، جلست ليو بياو بياو في سيارة الأجرة المغادرة وبكت بحزن شديد، نظرت إلى النقود والساعة في يدها لفترة، ثم وضعتهما في حقيبتها، وأخرجت كتاب "التنمية الذاتية للممثلين"، الذي اعتبرته إيمانها، وبكت بحزن شديد.
هذا الأداء مستمر، إنه ما هو مستمر هو الذي يحمل التوتر، فقط عندما تشعر به، تلك المشاعر المؤلمة.

والآن، مع الذكاء الاصطناعي، لم يعد إنشاء عروض شخصية قادرة على القيام بأفعال متواصلة مجرد حديث فارغ.

انظر إلى حالة أخرى حيث يأخذ رجل رشفة من القهوة، ثم يضعها، وتأتي امرأة من الخلف.

وأيضاً، تعابير الشخصية مذهلة، الرجل العجوز يبتسم ويضحك، ثم يبكي.

أريد البكاء أيضًا، حقًا.
عندما قمت بعمل المقطع الدعائي لفيلم Wandering Earth 3 في أغسطس الماضي، تخيلت وجود مليون احتمالية للذكاء الاصطناعي لتمثيل الشخصيات.
والآن، بعد مرور عام واحد فقط، ساعدني دوباو في تحقيق هذا الحلم الأكبر.

فيديو مركب بكاميرات متعددة

القدرة على إنشاء فيديو متعدد الكاميرات بأسلوب متسق ومشهد وشخصيات من صورة واحدة + Prompt هو شيء رأيته فقط داخل عرض Sora الترويجي.
إنه ذلك الفيديو الشهير للذئب الذي يعوي على القمر.

في الواقع، لكي أكون صادقًا، كان هذا الفيديو، في ذلك الوقت، صادمًا جدًا للمشاهدة، ولكن من الجيد مشاهدته الآن؛ الأسلوب والشخصيات والمشاهد بسيطة للغاية بحيث يتم الحفاظ على الاتساق بشكل جيد، ولا توجد قصة معقدة أو حبكات فرعية.
ولكن هذا هو كل شيء الآن، لا يزال لا يوجد فيديو ذكاء اصطناعي قادر على التقاط لقطات متعددة في فيديو واحد ويظل يتمتع بتناسق مثالي.
لا تجعلني أبدأ الحديث عن أشياء استوديو LTX، فهذا جيد بالنسبة للوحات القصصية، ولكن ماذا عن الفيلم الروائي الطويل؟ اغسل مؤخرتك، ولا تتحدث حتى عن المشاهد، فمن الصعب الحفاظ على توحيد الشخصيات في الصور البانورامية والمتوسطة والمقربة. وهذا قبيح حقًا.
لكن الآن، نجح Doubao PixelDance في تحقيق ذلك، والثبات لا يُضاهى حقًا.
ويستغرق الأمر صورة واحدة فقط + موجه.
على سبيل المثال، هذا.

موجه: الموت بالمنجل يقترب من المرأة. لقطة مقربة لوجه المرأة وهي تصرخ من الرعب.

التحكم في الكاميرا بشكل كبير

إن عرض Doubao PixelDance هو الأكثر غرابة وإثارة للاهتمام الذي رأيته على الإطلاق.
الآن التحكم في عدسة الفيديو AI، لا يزال يركز بشكل أساسي على مزيج الكاميرا + فرشاة الحركة من وظيفتين، ولكن لنكون صادقين، الحد الأقصى محدود حقًا، والكثير من العدسات الكبيرة والتكبير، ببساطة لا يمكن القيام به.
و Doubao PixelDance، التأثير فظيع حقًا.
ما هو عرض عين الطائر تكبير وتدوير هذا النوع من التلاعب الأساسي لا أقول، المفتاح هو، في كلمة واحدة، مجموعة متنوعة من 360 درجة حول موضوع المحيط، تكبير الرؤية الأمامية والخلفية، والتحريك، ومتابعة الهدف، ورفع وخفض عدسة أي شيء يمكن أن يكون.
التأثير جيد بشكل مدهش، لقد رأيته لأول مرة، في فيديو الذكاء الاصطناعي، يمكن أن تكون مرآة النقل مذهلة للغاية ورائعة للغاية.
أنظر إلى القضية مباشرة.

موجه: تبتسم المرأة وتخفض رأسها، تبتعد الكاميرا، وينظر رجل أبيض إلى المرأة.

التكبير طبيعي للغاية وسلس، لا يقهر، لا يقهر للغاية.
وهناك أيضًا هذا اللاعب الذي يجيد المراوغة بزاوية 360 درجة.
موجه: بأسلوب الأبيض والأسود، تلتقط الكاميرا صورًا حول المرأة التي ترتدي نظارة شمسية، وتنتقل من جانبها إلى الأمام، وتركز أخيرًا على لقطة قريبة لوجه المرأة.

هذه صورة، ثم تلميح، هل يمكنك تصديق ذلك؟ هذا النطاق من الحركة، هذا الاستقرار، ثم النمذجة اللعينة التي تخرج من الفظاعة، أنا مقتنع حقًا.
كيف يمكنك السماح للمصورين باللعب، مجنون آه ...

اكتب في النهاية

سورا عقود مستقبلية عملاقة، من 2.16 إلى الوقت الحاضر، متأخرا لرؤية أي أثر.
وبعد ذلك، 6.6، يمكن لينغ صامت، رسميا على الانترنت، نيابة عن إخراج الصين سورا.
واليوم، 9.24، قامت ByteDances مرة أخرى برفع فيديو الذكاء الاصطناعي، إلى مستوى جديد كليًا، وهو فيديو ترويجي لـ Sora، لا يمكن رؤية الارتفاع.
حتى الآن، الصين لا تحتاج إلى سورا، نموذج دوباو هو السماء.
Doubao PixelDance أيضًا لا يحتاج إلى أي نسخة صينية من لقب Sora، Doubao PixelDance هو Doubao PixelDance، وهو الآن في أيام فيديو الذكاء الاصطناعي.
حتى هذه النقطة أيضًا، لم يعد فيديو الذكاء الاصطناعي مجرد لعبة، بل أصبح حقيقة، ويمكنه الدخول إلى سير عمل الأفلام والتلفزيون والإعلانات والرسوم المتحركة، وجلب بعض الخيال الجديد.
هذه الرصاصة أطلقناها نحن.
اليوم هذا النموذج Doubao PixelDance، سوف تعطي الأولوية للمؤسسة لفتح دعوة للاختبار، في غضون أيام قليلة على سفينة البركان، كما هو الحال عندما على الخط الذي يحلم إلى C-المستخدم مفتوحا بالكامل، قد تضطر إلى الانتظار لفترة من الوقت، بعد كل شيء، هو جديد جدا، وقالوا أنهم ما زالوا يريدون تحسين قدرة النموذج، مستقرة، ثم مباشرة على الخط الذي يحلم، إلى مفتوحا بالكامل.
في الحقيقة، لم تكن هناك أي معجزة على الإطلاق، كل شيء هو تراكم لسنوات عديدة من الأمطار، كل شيء كما وعد.
واليوم أستطيع أن أصرخ أيضًا بهذا السطر:

فيديو آخر تم إنشاؤه بواسطة PixelDance:

أخيرًا: كيفية التقديم إلى PixelDance الآن؟

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

أولاً قم بتسجيل حسابك :

账号登录-火山引擎 (volcengine.com)

قم بتسجيل الدخول باستخدام هاتفك المحمول.

قم بتقديم الطلب هنا:

لقد انتهيت الآن، الرجاء انتظار الرد