• Wanx 2.1 是阿里雲開發的尖端 AI 模型,旨在根據文字輸入生成高品質的圖像和影片。它代表了人工智慧驅動的視覺內容創作的重大進步,擅長處理複雜的動作並提高像素質量
  • Wanx 2.1 因其遵循指令的精確度而著稱,並在 VBench 視訊生成模型排行榜上名列前茅
  • 此模型支援中英文文字效果,預計 2025 年第二季開源,同時開源訓練資料集和輕量級工具包

Wanx 2.1 的主要功能

  • 技術創新:Wanx 2.1 使用專有的 VAE(變分自動編碼器)和 DiT(去雜訊擴散變換器)框架,增強視訊產生中的時間和空間關係。它還採用了全時間注意力機制和超長上下文訓練,以實現更好的文字-視訊對齊
  • 表現:在時間穩定性和語義對齊方面處於領先地位,確保動作流暢並精確遵守文字指令。 Wanx 2.1 在 VBench 排行榜上獲得 84.7% 的成績,在動態度、空間關係和多物體互動方面表現出色
  • 雙語支持:首款支援中英文文字特效的機型,拓展其在廣告、短片等產業的應用

與其他模型的比較

  • MiracleVision V5:最近在某些排名上超越了 Wanx 2.1,可能提供卓越的視覺美感。然而,Wanx 2.1 在語意精確度和運動穩定性方面仍保持優勢
  • Google Veo 2:以其在 AI 視訊生成方面的進步而聞名,但與 Wanx 2.1 的具體比較有限。 Veo 2 可能會更加關注影片創作的不同方面
  • OpenAI Sora:提供有競爭力的影片產生功能,但與 Wanx 2.1 的詳細比較尚不廣泛。 Sora 可能在敘事連續性或藝術風格等不同方面表現出色
  • 混元影片:AI 視訊生成領域的另一個模型,但與 Wanx 2.1 的直接比較很少。混元可能專注於不同的應用場景或技術方法

開放原始碼倡議

Wanx 2.1 即將發布的開源版本將使高品質 AI 影片產生的存取權變得民主化,使開發人員能夠利用其功能,並有可能推動多模式 AI 和逼真的人類動作生成的快速發展

總而言之,Wanx 2.1 在時間穩定性、語義對齊和雙語支援方面表現出色,使其成為需要從文字輸入精確生成影片的應用程式的強大選擇。雖然 MiracleVision V5 等其他型號可能提供卓越的美感,但 Wanx 2.1 的開源計劃可以進一步增強其在 AI 視訊領域的影響力。