PixelDance คือโมเดลการแปลงข้อความเป็นวิดีโอที่ดีที่สุด - 8PixLabs.com

ByteDance เปิดตัวโมเดลวิดีโอ AI ใหม่ – ลาก่อนโซระ เวลาของคุณผ่านไปแล้ว

ตอนนี้การเปิดตัว Volcano Engine ของ ByteDance ก็เกือบจะเสร็จสิ้นแล้ว
ฉันตื่นเต้นมากเกินไปนิดหน่อยตอนนี้
แม้ว่าการเปิดตัวจะเสร็จสิ้นไปแล้ว แต่ฉันรู้สึกว่าจุดเริ่มต้นใหม่ในการสร้างการเปลี่ยนแปลงครั้งยิ่งใหญ่ในอุตสาหกรรมได้มาถึงอย่างเป็นทางการแล้ว ณ ขณะนี้

สารบัญ

ByteDance ได้เปิดตัวโมเดลวิดีโอ AI ใหม่ 2 โมเดลอย่างเป็นทางการแล้ว:

การสร้างวิดีโอ Doubao – โมเดล PixelDance และโมเดล Seaweed
ครั้งหน้าฉันจะมาพูดถึงโมเดล Seaweed มากกว่านี้ ครั้งนี้ฉันอยากจะพูดถึงโมเดล Doubao PixelDance นี้ เพราะมันเจ๋งมาก เจ๋งมากจนฉันตะลึงตลอดเวลาที่ชมมัน

ตอนที่พวกเขาประกาศเรื่องนี้อย่างเป็นทางการ ก็มีเสียงปรบมือมากมายจนฉันรู้สึกเหมือนจะระเบิดหลังคาบ้านออกจากหน้าจอไปเลย
จริงๆ แล้ว ถ้าผมต้องสรุปโมเดล Doubao PixelDance นี้ก็คงเป็นสามคำ:
การเคลื่อนไหวต่อเนื่องที่ซับซ้อนของตัวละคร วิดีโอแบบผสมผสานหลายกล้อง และการควบคุมกล้องที่เข้มงวด
ฟังดูเข้าใจยากนิดหน่อยใช่ไหม ไม่ต้องรีบครับ เดี๋ยวจะอธิบายให้ละเอียดครับ

ผมลองใส่เคสไปสองสามอันก่อนเพื่อจะสัมผัสได้ถึงความตกตะลึงของสิ่งนี้:

จริงๆ แล้ว อุตสาหกรรมภาพยนต์และโทรทัศน์ในอดีตแทบจะใช้ AI ไม่ได้เลย เนื่องจากการแสดงของตัวละครมีเนื้อหาขยะเกินไป และฉากและความสอดคล้องของตัวละครก็ไม่ดีพอ พูดตรงๆ ก็คือการใช้งานกระจกไม่ดีเลย

ตอนนี้ ByteDance ได้เข้ามาและนำวิดีโอ AI ไปสู่อีกระดับใหม่

ความพิเศษของการเปลี่ยนแปลงครั้งยิ่งใหญ่ในอุตสาหกรรมได้มาถึงแล้วอย่างเป็นทางการในวันนี้ ณ จุดเปิดตัวนี้เอง
และแล้วผมก็ได้กลั้นหายใจมานานถึง 4 วันเต็ม ในที่สุดผมก็ส่งบทความนี้ออกมาได้
ใช่ เมื่อ 4 วันที่แล้ว ฉันได้รับคำเชิญจาก ByteDance เพื่อวัดโมเดล Doubao PixelDance ล่วงหน้า ในตอนนั้น ฉันตกใจมากจนพูดไม่ออก คุณรู้ไหม ในฐานะบล็อกเกอร์ หลังจากวัดสิ่งที่หยิ่งยะโสเช่นนี้แล้ว แน่นอนว่าฉันอยากเป็นคนแรกที่จะแชร์เรื่องนี้ แต่เพราะข้อตกลงการรักษาความลับ ฉันจึงไม่สามารถพูดอะไรเกี่ยวกับเรื่องนี้ได้
ดังนั้นคุณก็รู้ว่ามันยากขนาดไหนสำหรับฉันที่ต้องอดทนในช่วง 4 วันนี้
และตอนนี้ทุกอย่างก็เข้าที่เข้าทางแล้ว ในที่สุดฉันก็สามารถพูดคุยได้เสียที
กลับมาที่คุณสมบัติสามประการที่สำคัญที่สุดเหล่านี้:
การเคลื่อนไหวต่อเนื่องที่ซับซ้อนของตัวละคร วิดีโอแบบผสมผสานกล้องหลายตัว และการควบคุมกล้องที่เข้มงวด

ตัวละครสามารถทำการกระทำอย่างต่อเนื่องได้

ในอดีต วิดีโอ AI มีจุดที่อันตรายมาก นั่นคือ ดูเหมือนแอนิเมชั่น PPT

ไม่ว่าจะเป็นวิดีโอของโซระ หรือรันเวย์ หรือเคลิง ฯลฯ แอมพลิจูดของการเคลื่อนไหว แต่เฉพาะแอมพลิจูดของเลนส์เท่านั้นที่มีมาก ไม่มีการเคลื่อนไหวที่ซับซ้อนของผู้คนเลย
ในตอนเช้า ให้หันหลังกลับ วิ่งเร็วๆ โบกมือ หรือกอดกัน พูดตามตรง การกอดเพียงอย่างเดียวไม่ใช่วิดีโอ AI จำนวนมากที่ทำได้เช่นนั้น
แล้วถ้าคุณให้หญิงสาวในรูปถอดแว่นกันแดด ยืนขึ้น และเดินไปที่รูปปั้นจะเกิดอะไรขึ้น?

วิดีโอ AI ทั้งหมด ตายหมดในสนามรบ
และครั้งนี้ Doubao PixelDance ก็ทำได้จริงๆ

นอกเหนือจากการสั่นไหวเล็กน้อยบนเข็มนาฬิกาแล้ว สัดส่วนของตัวละคร การเคลื่อนไหว แขนขา แสงสว่าง ฯลฯ ก็แทบจะไร้ที่ติเลย
ละครดูดี การแสดงของผู้คนสำคัญที่สุด
ตัวอย่างเช่น ใน The King of Comedy ในฉากสุดท้าย Yin Tian Xiu ของ Stephen Chow หลังจากตะโกนประโยคคลาสสิก “ฉันจะสนับสนุนคุณ” กับ Liu Piao Piao แล้ว Liu Piao Piao ก็นั่งในรถแท็กซี่ขาออกและร้องไห้ด้วยความเศร้ามาก เธอมองไปที่เงินและนาฬิกาในมือของเธอสักครู่ จากนั้นจึงใส่ลงในกระเป๋าของเธอและหยิบหนังสือ "การปลูกฝังตนเองของนักแสดง" ออกมาซึ่งเธอมองว่าเป็นศรัทธาของเธอและร้องไห้ด้วยความเศร้ามาก การปลูกฝังตนเองของนักแสดง และกอดมันไว้กับอกของเขาด้วยความเศร้า
การแสดงนี้มีความต่อเนื่อง มีความต่อเนื่องคือสิ่งที่ทำให้รู้สึกตึงเครียด มีเพียงตอนที่คุณรู้สึกได้ถึงความรู้สึกเจ็บปวดเท่านั้น

และตอนนี้ด้วย AI การสร้างการแสดงตัวละครที่สามารถดำเนินการต่อเนื่องไม่ใช่เรื่องไร้สาระอีกต่อไป

ลองดูอีกกรณีหนึ่งที่ผู้ชายจิบกาแฟ จากนั้นวางลง และมีผู้หญิงเดินเข้ามาจากด้านหลัง

นอกจากนี้การแสดงออกของตัวละครก็เยี่ยมยอดมาก ชายชรายิ้มและหัวเราะ จากนั้นก็ร้องไห้

ฉันอยากจะร้องไห้จริงๆนะ
เมื่อผมทำตัวอย่างหนัง Wandering Earth 3 เมื่อเดือนสิงหาคมปีที่แล้ว ผมจินตนาการถึงความเป็นไปได้นับล้านที่ AI จะมาแสดงบทบาท
ตอนนี้เพียงแค่หนึ่งปีผ่านไป Doubao ได้ช่วยให้ฉันทำให้ความฝันที่ยิ่งใหญ่ที่สุดนี้เป็นจริง

วิดีโอแบบผสมผสานกล้องหลายตัว

ความสามารถในการสร้างวิดีโอหลายกล้องที่มีรูปแบบ ฉาก และตัวละครที่สอดคล้องกันจากภาพเดียว + คำแนะนำเป็นสิ่งที่ฉันเคยเห็นในโปรโมของโซระเท่านั้น
มันคือวิดีโออันโด่งดังของหมาป่าหอนไปที่ดวงจันทร์

จริงๆ แล้ว ถ้าจะพูดตรงๆ ก็คือ ในตอนนั้น การดูวิดีโอนี้มันน่าตกใจมาก แต่ตอนนี้ก็ไม่เป็นไรแล้วที่จะดูมันอีกครั้ง สไตล์ ตัวละคร และฉากต่างๆ นั้นเรียบง่ายมาก ทำให้มีความสม่ำเสมอ และไม่มีเรื่องราวหรือพล็อตย่อยที่ซับซ้อน
แต่นั่นเป็นเพียงเท่านั้น ขณะนี้ยังไม่มีวิดีโอ AI ใดที่จะสามารถถ่ายหลายช็อตในวิดีโอเดียวได้โดยยังคงมีความสม่ำเสมออย่างสมบูรณ์แบบ
อย่าให้ฉันเริ่มพูดถึงเรื่องสตูดิโอ LTX เลย มันใช้ได้สำหรับสตอรีบอร์ด แต่สำหรับภาพยนตร์ล่ะ? เลิกพูดถึงฉากเลย มันเป็นเรื่องยากที่จะทำให้ตัวละครอยู่ในแนวพาโนรามา ระยะกลาง และระยะใกล้ และมันก็แย่มาก
แต่ตอนนี้ Doubao PixelDance ก็ทำได้แล้ว และความสม่ำเสมอก็ไม่มีใครเทียบได้จริงๆ
และใช้เพียงภาพเดียว + คำแนะนำ
เช่นอันนี้

คำเตือน: ความตายกำลังใกล้เข้ามาด้วยเคียว ภาพระยะใกล้ของใบหน้าผู้หญิงขณะที่เธอกรีดร้องด้วยความหวาดกลัว

การควบคุมกล้องขั้นสูงสุด

การสร้างโมเดล Doubao PixelDance เป็นสิ่งที่น่าทึ่งและน่าทึ่งที่สุดที่ฉันเคยเห็นมา
ในขณะนี้การควบคุมเลนส์วิดีโอ AI ยังคงมุ่งเน้นที่การผสมผสานฟังก์ชั่นสองอย่างระหว่างกล้อง + แปรงเคลื่อนไหว แต่พูดตามตรง ขีดจำกัดบนนั้นจำกัดมากจริงๆ เลนส์ขนาดใหญ่และการซูมจำนวนมากไม่สามารถทำได้เลย
และ Doubao PixelDance ผลที่ได้โคตรจะดีเลย
การซูมเข้าและหมุนมุมมองแบบนกเป็นอะไรที่ฉันไม่ได้พูดถึงเลย แต่สิ่งสำคัญก็คือ การมองภาพแบบ 360 องศารอบๆ วัตถุ การซูมแบบมองด้านหน้าและด้านหลัง การแพนกล้อง การติดตามเป้าหมาย การยกและลดระดับเลนส์ของสิ่งใดก็ตามที่สามารถทำได้
ผลลัพธ์ที่ได้นั้นดีอย่างน่าประหลาดใจ ฉันได้เห็นเป็นครั้งแรก ในวิดีโอ AI กระจกขนส่งสามารถทำได้น่าทึ่งและเจ๋งมาก
มาดูเคสกันตรงๆครับ

ข้อความกระตุ้น: ผู้หญิงคนนั้นยิ้มและก้มหัวลง กล้องเคลื่อนออก และชายผิวขาวก็จ้องมองไปที่ผู้หญิงคนนั้น

การซูมมีความเป็นธรรมชาติและนุ่มนวลสุดๆ สุดยอดจริงๆ สุดยอดไปเลย
และแล้วก็มีอันนี้อีก การเลี้ยงบอลแบบ 360 องศาแบบรุนแรงรอบตัว
คำเตือน: สไตล์ขาวดำ กล้องจะถ่ายไปรอบๆ ผู้หญิงที่สวมแว่นกันแดด โดยเคลื่อนตัวจากด้านข้างของเธอไปด้านหน้า และในที่สุดก็โฟกัสที่ภาพระยะใกล้ของใบหน้าของผู้หญิง

นี่คือภาพ และนี่คือคำเตือน คุณเชื่อไหมว่าการเคลื่อนไหวในระยะนี้ ความเสถียรนี้ มากกว่าการสร้างแบบจำลองที่เหลือเชื่อ ฉันเชื่อจริงๆ
จะให้ช่างภาพยังเล่นอยู่ได้ยังไง บ้าเอ๊ย...

เขียนในตอนท้าย

โซระยักษ์แห่งอนาคต จาก 2.16 จนถึงปัจจุบัน สายไปแล้วที่จะได้เห็นร่องรอย
และแล้ว 6.6 หลิงก็สามารถเงียบอย่างเป็นทางการออนไลน์ในนามของผลผลิตของโซระจีน
และในวันนี้ 9.24 ByteDances ก็ได้นำวิดีโอ AI กลับมาอีกครั้ง ซึ่งได้รับการผลักดันไปสู่อีกระดับหนึ่ง โดยในวิดีโอโปรโมตของ Sora นั้น แทบจะมองไม่เห็นความสูงเลย
จนถึงตอนนี้จีนไม่ต้องการ Sora โมเดล Doubao ก็คือท้องฟ้า
Doubao PixelDance ไม่จำเป็นต้องมีชื่อเล่นของ Sora ในเวอร์ชันภาษาจีนอีกต่อไป Doubao PixelDance ก็คือ Doubao PixelDance ตอนนี้เขาอยู่ในยุคของวิดีโอ AI แล้ว
จนถึงจุดนี้ วิดีโอ AI ไม่ใช่แค่ของเล่นอีกต่อไป แต่เป็นของจริง สามารถเข้าสู่กระบวนการทำงานภาพยนตร์และโทรทัศน์ การโฆษณา แอนิเมชัน และนำจินตนาการใหม่ๆ มาให้
ลูกนี้พวกเราเป็นคนยิง
วันนี้โมเดล Doubao PixelDance นี้จะให้ความสำคัญกับองค์กรในการเปิดคำเชิญเพื่อทดสอบในอีกไม่กี่วันบนเรือภูเขาไฟ ส่วนเมื่อบนสายที่ฝันถึงผู้ใช้ C เปิดเต็มรูปแบบอาจต้องรอระยะเวลาหนึ่ง หลังจากนั้นทั้งหมดก็ใหม่เกินไป พวกเขากล่าวว่าพวกเขายังต้องการเพิ่มประสิทธิภาพความสามารถของโมเดลให้เสถียร จากนั้นบนสายที่ฝันถึงเพื่อเปิดเต็มรูปแบบโดยตรง
จริงๆแล้วไม่เคยมีปาฏิหาริย์ใดๆเลย ทุกสิ่งเป็นการสะสมจากฝนที่ตกหนักหลายปี ทุกสิ่งเป็นไปตามที่สัญญาไว้
วันนี้ฉันก็สามารถตะโกนประโยคนี้ได้เช่นกัน:

วิดีโออื่นๆ ที่สร้างโดย PixelDance:

สุดท้าย: วิธีการสมัคร PixelDance ทันที?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

ขั้นตอนแรกลงทะเบียนบัญชีของคุณ:

账号登录-火yama引擎 (volcengine.com)

เข้าสู่ระบบด้วยโทรศัพท์มือถือของคุณ

สมัครเข้าใช้งานที่นี่:

ตอนนี้คุณทำเสร็จแล้ว โปรดรอการตอบกลับ