来自阿里巴巴的 wanx ai - 8PixLabs.com

Wanx 2.1 是阿里云开发的尖端 AI 模型，旨在通过文本输入生成高质量的图像和视频。它代表了 AI 驱动的视觉内容创作的重大进步，在处理复杂动作和提高像素质量方面表现出色
Wanx 2.1 因其遵循指令的精确度而著称，并在 VBench 视频生成模型排行榜上名列前茅
该模型支持中英文文本效果，预计将于 2025 年第二季度开源，同时开源训练数据集和轻量级工具包

Wanx 2.1 的主要功能

技术创新：Wanx 2.1 使用专有的 VAE（变分自动编码器）和 DiT（去噪扩散变换器）框架，增强视频生成中的时间和空间关系。它还采用全时间注意机制和超长上下文训练，以实现更好的文本-视频对齐
性能：在时间稳定性和语义对齐方面处于领先地位，确保动作流畅并精确遵循文本指令。Wanx 2.1 在 VBench 排行榜上得分为 84.7%，在动态度、空间关系和多对象交互方面表现出色
双语支持：首款支持中英文文字特效的机型，拓展其在广告、短视频等行业的应用

与其他模型的比较

MiracleVision V5：最近在某些排名中超越了 Wanx 2.1，可能提供了更出色的视觉美感。然而，Wanx 2.1 在语义精度和运动稳定性方面仍保持优势
Google Veo 2：以其在 AI 视频生成方面的进步而闻名，但与 Wanx 2.1 的具体比较有限。Veo 2 可能会更多地关注视频创作的不同方面
OpenAI Sora：提供具有竞争力的视频生成功能，但与 Wanx 2.1 的详细比较尚不广泛。Sora 可能在叙事连续性或艺术风格等不同方面表现出色
混元视频：AI 视频生成领域的另一个模型，但与 Wanx 2.1 的直接比较很少。Hunyuan 可能会专注于不同的应用场景或技术方法

开放源代码倡议

Wanx 2.1 即将发布的开源版本将使高质量 AI 视频生成的访问变得民主化，使开发人员能够利用其功能，并有可能推动多模式 AI 和逼真的人类动作生成的快速发展

总而言之，Wanx 2.1 在时间稳定性、语义对齐和双语支持方面表现出色，使其成为需要从文本输入中精确生成视频的应用程序的可靠选择。虽然 MiracleVision V5 等其他型号可能提供出色的美感，但 Wanx 2.1 的开源计划可以进一步增强其在 AI 视频领域的影响力。