- Wanx 2.1 是阿里雲開發的尖端 AI 模型,旨在根據文字輸入生成高品質的圖像和影片。它代表了人工智慧驅動的視覺內容創作的重大進步,擅長處理複雜的動作並提高像素質量
- Wanx 2.1 因其遵循指令的精確度而著稱,並在 VBench 視訊生成模型排行榜上名列前茅
- 此模型支援中英文文字效果,預計 2025 年第二季開源,同時開源訓練資料集和輕量級工具包
Wanx 2.1 的主要功能
- 技術創新:Wanx 2.1 使用專有的 VAE(變分自動編碼器)和 DiT(去雜訊擴散變換器)框架,增強視訊產生中的時間和空間關係。它還採用了全時間注意力機制和超長上下文訓練,以實現更好的文字-視訊對齊
- 表現:在時間穩定性和語義對齊方面處於領先地位,確保動作流暢並精確遵守文字指令。 Wanx 2.1 在 VBench 排行榜上獲得 84.7% 的成績,在動態度、空間關係和多物體互動方面表現出色
- 雙語支持:首款支援中英文文字特效的機型,拓展其在廣告、短片等產業的應用
與其他模型的比較
- MiracleVision V5:最近在某些排名上超越了 Wanx 2.1,可能提供卓越的視覺美感。然而,Wanx 2.1 在語意精確度和運動穩定性方面仍保持優勢
- Google Veo 2:以其在 AI 視訊生成方面的進步而聞名,但與 Wanx 2.1 的具體比較有限。 Veo 2 可能會更加關注影片創作的不同方面
- OpenAI Sora:提供有競爭力的影片產生功能,但與 Wanx 2.1 的詳細比較尚不廣泛。 Sora 可能在敘事連續性或藝術風格等不同方面表現出色
- 混元影片:AI 視訊生成領域的另一個模型,但與 Wanx 2.1 的直接比較很少。混元可能專注於不同的應用場景或技術方法
開放原始碼倡議
Wanx 2.1 即將發布的開源版本將使高品質 AI 影片產生的存取權變得民主化,使開發人員能夠利用其功能,並有可能推動多模式 AI 和逼真的人類動作生成的快速發展
總而言之,Wanx 2.1 在時間穩定性、語義對齊和雙語支援方面表現出色,使其成為需要從文字輸入精確生成影片的應用程式的強大選擇。雖然 MiracleVision V5 等其他型號可能提供卓越的美感,但 Wanx 2.1 的開源計劃可以進一步增強其在 AI 視訊領域的影響力。

 Chinese (Taiwan)
Chinese (Taiwan)				 English
English					           Japanese
Japanese					           Korean
Korean					           French
French					           German
German					           Chinese (China)
Chinese (China)					           Portuguese
Portuguese					           Italian
Italian					           Swedish
Swedish					           Russian
Russian					           Hindi
Hindi					           Arabic
Arabic					           Spanish
Spanish					           Czech
Czech					           Swahili
Swahili					           Romanian
Romanian					           Thai
Thai					           Indonesian
Indonesian					           Norwegian
Norwegian					           Norwegian
Norwegian