肖像影片編輯功能由
多模態生成先驗

傳統的人像影片編輯方法往往存在3D效果、時間一致性等問題，渲染品質和效率也表現不佳。為了解決這些問題，PortraitGen 將肖像影片的每一幀提升為統一的動態 3D 高斯場，從而確保幀與幀之間的結構和時間一致性。
此外，PortraitGen 設計了一種新的神經高斯紋理機制，不僅可以進行複雜的風格編輯，還可以實現超過每秒 100 幀的渲染速度。它還引入了表情相似度引導和人臉辨識肖像編輯模組，有效減少迭代更新資料集時可能出現的問題。（連結在文章底部）

01 字幕內容

PortraitGen 將 2D 肖像影片提升到 4D 高斯場，只需 30 分鐘即可實現多模式肖像編輯。編輯後的3D肖像可以以每秒100幀的速度渲染。首先追蹤單眼影片中的SMPL-X係數，然後利用神經高斯紋理機制產生3D高斯特徵場。
此神經高斯資料經過進一步處理以呈現肖像影像。

02 實際用途

PortraitGen解決方案是肖像影片編輯的統一框架。任何保留結構的影像編輯模型都可以用於組成 3D 一致且時間連貫的肖像影片。
文字驅動編輯：InstructPix2Pix用作2D編輯模型。它的 UNet 需要三個輸入：輸入 RGB 圖像、文字命令和雜訊潛在。在渲染的影像中加入一些雜訊，並根據輸入的來源影像和指令進行編輯。

影像驅動編輯：重點關注兩種基於影像提示的編輯類型。一種是提取參考圖像的整體風格，另一種是透過將物件放置在特定位置來定製圖像。這些方法被實驗性地用於風格遷移和虛擬試穿。使用神經風格遷移演算法將參考影像的風格遷移到資料集幀，並使用 AnyDoor 更改主體的衣服。

重新照明：使用 IC-Light 來操縱視訊畫面的照明。給定一個文字描述作為照明條件，PortraitGen 方法可以和諧地調整肖像影片的照明

03 對比與消融實驗

PortraitGen 方法與最先進的影片編輯方法進行了比較，包括 TokenFlow、Rerender A Video、CoDeF 和 AnyV2V。 PortraitGen 方法在即時保存、身分保存和時間一致性方面明顯優於其他方法。
片長 00:47
受到「延遲神經渲染」中提出的神經紋理的啟發，PortraitGen 提出了一種神經高斯紋理。這種方法儲存每個高斯的可學習特徵，而不是儲存球諧係數。接下來，使用 2D 神經渲染器將處理後的特徵圖轉換為 RGB 訊號。此方法比球面諧波係數提供了更豐富的信息，並且可以更好地融合處理後的特徵，從而更容易編輯樂高、像素藝術等複雜風格。

編輯上半身圖像時，如果臉部佔據的面積較小，模型的編輯可能無法很好地適應頭部姿勢和臉部結構。臉部意識肖像編輯 (FA) 可以透過進行兩次編輯來增強效果，以增加對臉部結構的注意力。

透過將渲染影像和輸入來源影像映射到EMOCA的潛在表情空間並優化表情的相似性，我們可以確保表情保持自然並與原始視訊幀保持一致。

PortraitGen 背後的技術

參考

你可以在這裡找到更多關於 PotraitGen 的資訊：https://ustc3dv.github.io/PortraitGen/

https://arxiv.org/pdf/2409.13591

程式碼在 github 上

類似職位

未分類

PortraitGen：

肖像影片編輯功能由
多模態生成先驗

01 字幕內容

02 實際用途

03 對比與消融實驗

PortraitGen 背後的技術

參考

DeepSeek R1：與 OpenAI 競爭的改變遊戲規則的開源 AI 模型

TransPixar：革命性的人工智慧透明視訊生成系統

本週十大 AI 新產品 2024 1101

哪種 AI 人臉交換技術最好？PuLID vs InstantID vs FaceID

十大最佳 Flux AI 圖像生成器

一張照片，一鳴驚人：MiniMax（海絡AI）多模態生成技術再創新高

肖像影片編輯功能由多模態生成先驗

01 字幕內容

02 實際用途

03 對比與消融實驗

PortraitGen 背後的技術

參考

類似職位

肖像影片編輯功能由
多模態生成先驗