การตัดต่อวิดีโอแนวตั้งโดย
ไพรเออร์กำเนิดแบบหลายโหมด

วิธีการตัดต่อวิดีโอภาพบุคคลแบบดั้งเดิมมักมีปัญหาเกี่ยวกับเอฟเฟกต์ 3 มิติและความสอดคล้องตามเวลา และยังทำงานได้ไม่ดีในแง่ของคุณภาพและประสิทธิภาพในการเรนเดอร์ เพื่อแก้ไขปัญหาเหล่านี้ PortraitGen จึงยกระดับเฟรมวิดีโอภาพบุคคลแต่ละเฟรมให้เป็นฟิลด์ Gaussian 3 มิติแบบไดนามิกที่รวมกันเป็นหนึ่งเดียว ซึ่งรับประกันความสอดคล้องของโครงสร้างและเวลาจากเฟรมหนึ่งไปยังอีกเฟรมหนึ่ง PortraitGen เป็นวิธีตัดต่อวิดีโอภาพบุคคลอันทรงพลังที่ช่วยให้สร้างสไตล์ที่สอดคล้องและแสดงออกได้ด้วยคำแนะนำหลายโหมด
นอกจากนี้ PortraitGen ยังได้ออกแบบกลไกการสร้างพื้นผิวแบบเกาส์เซียนด้วยนิวรอลใหม่ ซึ่งไม่เพียงแต่ช่วยให้แก้ไขสไตล์ที่ซับซ้อนได้เท่านั้น แต่ยังทำให้สามารถเรนเดอร์ด้วยความเร็วเกิน 100 เฟรมต่อวินาทีได้อีกด้วย PortraitGen ผสมผสานอินพุตที่หลากหลายซึ่งได้รับการปรับปรุงด้วยความรู้ที่กลั่นกรองมาจากโมเดลสร้างภาพ 2 มิติขนาดใหญ่ นอกจากนี้ยังแนะนำแนวทางความคล้ายคลึงของการแสดงออกและโมดูลการแก้ไขภาพบุคคลด้วยการจดจำใบหน้า ซึ่งช่วยลดปัญหาที่อาจเกิดขึ้นเมื่ออัปเดตชุดข้อมูลซ้ำๆ ได้อย่างมีประสิทธิภาพ (ลิงก์ที่ด้านล่างของบทความ)

01 เนื้อหาคำบรรยาย

PortraitGen ดึงวิดีโอภาพบุคคล 2 มิติมาไว้ในฟิลด์ Gaussian 4 มิติเพื่อแก้ไขภาพบุคคลแบบหลายโหมดในเวลาเพียง 30 นาที ภาพบุคคล 3 มิติที่แก้ไขแล้วสามารถเรนเดอร์ได้ด้วยความเร็ว 100 เฟรมต่อวินาที ก่อนอื่นจะติดตามค่าสัมประสิทธิ์ SMPL-X ในวิดีโอโมโนคิวลาร์ จากนั้นจึงสร้างฟิลด์คุณลักษณะ 3 มิติแบบ Gaussian โดยใช้กลไกพื้นผิว Neuro-Gaussian
ข้อมูล Neuro-Gaussian นี้จะถูกประมวลผลเพิ่มเติมเพื่อแสดงรูปภาพบุคคล นอกจากนี้ PortraitGen ยังใช้กลยุทธ์การอัปเดตชุดข้อมูลแบบวนซ้ำสำหรับการแก้ไขภาพบุคคล และเสนอโมดูลการแก้ไขการจดจำใบหน้าเพื่อปรับปรุงคุณภาพของการแสดงออกและรักษาโครงสร้างใบหน้าส่วนบุคคลไว้

02 การใช้งานจริง

โซลูชัน PortraitGen คือกรอบงานรวมสำหรับการแก้ไขวิดีโอภาพบุคคล โมเดลการแก้ไขรูปภาพใดๆ ที่รักษาโครงสร้างไว้สามารถใช้สร้างวิดีโอภาพบุคคลที่มีความสอดคล้องและสอดคล้องตามเวลาในรูปแบบ 3 มิติได้
การแก้ไขตามข้อความ: InstructPix2Pix ใช้เป็นแบบจำลองการแก้ไขแบบ 2 มิติ โดย UNet ต้องใช้อินพุต 3 รายการ ได้แก่ รูปภาพ RGB อินพุต คำสั่งข้อความ และสัญญาณรบกวนแฝง โดยจะเพิ่มสัญญาณรบกวนบางส่วนลงในรูปภาพที่แสดงผล และแก้ไขตามรูปภาพและคำสั่งแหล่งที่มาของอินพุต

การแก้ไขตามภาพ: เน้นการแก้ไขสองประเภทโดยอิงตามคำแนะนำของภาพ ประเภทหนึ่งคือการแยกรูปแบบทั่วไปของภาพอ้างอิง และอีกประเภทหนึ่งคือการปรับแต่งภาพโดยการวางวัตถุในตำแหน่งเฉพาะ วิธีการเหล่านี้ใช้ในการทดลองสำหรับการโยกย้ายรูปแบบและการปรับแบบเสมือนจริง รูปแบบของภาพอ้างอิงถูกโยกย้ายไปยังเฟรมชุดข้อมูลโดยใช้อัลกอริทึมการโยกย้ายรูปแบบ Neural และเสื้อผ้าของบุคคลนั้นถูกเปลี่ยนโดยใช้ AnyDoor

การรีไลต์: การใช้ IC-Light เพื่อควบคุมแสงของเฟรมวิดีโอ เมื่อกำหนดข้อความอธิบายเป็นเงื่อนไขแสง วิธี PortraitGen จะปรับแสงของวิดีโอพอร์ตเทรตอย่างกลมกลืน

03 การทดลองคอนทราสต์และการระเหย

วิธี PortraitGen ถูกนำไปเปรียบเทียบกับวิธีการตัดต่อวิดีโอที่ล้ำสมัยที่สุด ได้แก่ TokenFlow, Rerender A Video, CoDeF และ AnyV2V วิธี PortraitGen มีประสิทธิภาพเหนือกว่าวิธีอื่นๆ อย่างมากในแง่ของการรักษาแบบทันเวลา การรักษาตัวตน และความสอดคล้องตามเวลา
ระยะเวลา 00:47
PortraitGen ได้เสนอพื้นผิวแบบเกาส์เซียนแบบนิวรอลซึ่งได้รับแรงบันดาลใจจากพื้นผิวแบบนิวรอลที่เสนอใน 'การเรนเดอร์แบบนีโอดีเลย์' โดยวิธีการนี้จะจัดเก็บฟีเจอร์ที่เรียนรู้ได้สำหรับแต่ละแบบเกาส์เซียนแทนที่จะจัดเก็บค่าสัมประสิทธิ์ฮาร์มอนิกทรงกลม จากนั้นจะใช้ตัวเรนเดอร์แบบนิวรอล 2 มิติเพื่อแปลงแผนที่ฟีเจอร์ที่ประมวลผลแล้วเป็นสัญญาณ RGB วิธีการนี้ให้ข้อมูลที่สมบูรณ์กว่าค่าสัมประสิทธิ์ฮาร์มอนิกทรงกลมและช่วยให้ผสานฟีเจอร์ที่ประมวลผลแล้วได้ดีขึ้น ทำให้แก้ไขสไตล์ที่ซับซ้อน เช่น เลโก้และพิกเซลอาร์ตได้ง่ายขึ้น

เมื่อแก้ไขภาพส่วนบนของร่างกาย หากใบหน้าครอบครองพื้นที่ขนาดเล็ก การแก้ไขโมเดลอาจไม่เหมาะกับท่าทางศีรษะและโครงสร้างใบหน้า การแก้ไขภาพบุคคลโดยคำนึงถึงใบหน้า (FA) สามารถปรับปรุงผลลัพธ์ได้โดยแก้ไขสองครั้งเพื่อเพิ่มการโฟกัสที่โครงสร้างใบหน้า

การแมปภาพที่เรนเดอร์และภาพต้นฉบับอินพุตลงในพื้นที่การแสดงออกแฝงของ EMOCA และการปรับปรุงความคล้ายคลึงของการแสดงออก ช่วยให้เรามั่นใจได้ว่าการแสดงออกจะยังคงเป็นธรรมชาติและสอดคล้องกับเฟรมวิดีโอต้นฉบับ

เทคโนโลยีเบื้องหลัง PortraitGen

อ้างอิง

คุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับ PotraitGen ได้ที่นี่: https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

โค้ดอยู่ที่นี่ใน GitHub

กระทู้ที่คล้ายกัน