ByteDance 新发布 AI 视频模型 - 再见索拉,你的时代已经过去。

现在,ByteDance 的 "火山引擎 "发布会已基本结束。
我现在有点兴奋过头了。
尽管发布会已经结束,但我觉得,一个颠覆行业的全新开端已经在这一刻正式到来。


ByteDance 正式发布了两款新的人工智能视频模型:


豆瓣视频生成器 - PixelDance 模型和 Seaweed 模型。
下次我会详细谈谈海藻模型。这次,我想谈谈豆瓣的这款 PixelDance 模型,因为它实在是太炫、太炫了,以至于我在看的过程中一直惊叹不已。

当他们正式宣布这件事的那一刻,全场掌声雷动,我感觉自己都要从屏幕上把房顶掀翻了。
说真的,如果让我用三个词来概括这款豆瓣像素舞机型的话,那就是:"栩栩如生"、"栩栩如生"、"栩栩如生":
复杂的人物连续移动、多机位组合视频和极端的机位控制。
听起来有点难以理解,不是吗?不用着急,我会详细解释的。

我先放了几个箱子,感受一下这东西的震撼力:

说真的,影视行业以前几乎用不到人工智能,就是因为,人物表现太垃圾,场景和人物一致性太差,操作镜说实话不好用。

现在,ByteDance 已经介入,将人工智能视频提升到了一个全新的水平。


行业颠覆的奇点在今天的发布会上正式到来。
而我,在憋了整整 4 天之后,终于可以把这篇文章发出去了。
是的,4 天前,我受 ByteDance 邀请,提前测评了这款豆瓣 PixelDance 模型,当时,我的震惊无以言表,要知道,作为一个博主,测评完这么鸡肋的东西,自然想第一时间分享出来,但碍于保密协议,我只能只字不提。
所以,你就知道这 4 天我有多难坚持了。
现在一切都有了眉目我他妈终于能说话了
回到这三个最重要的功能:
复杂的人物连续动作、多机位组合视频以及极强的镜头控制能力。

角色可以连续行动


过去,人工智能视频有一个很致命的缺点,就是看起来像 PPT 动画。


无论是索拉的视频,还是天桥,抑或是柯灵等人的动作幅度,也仅仅是镜头幅度大而已,从来没有出现过人的复杂动作。
今天的巅峰时刻,转身,或快跑,或挥手,或拥抱。说实话,光是拥抱,就没有几个人工智能视频能做到。
如果让照片中的女孩摘下墨镜,站起来走向雕像呢?


所有人工智能视频,都在行动中死亡。
这一次,豆瓣像素舞真的做到了。


除了手表的指针有些轻微闪烁外,人物的比例、动作、肢体、灯光等几乎完美无瑕。
戏好看,人的动作表现,才是最重要的啊。
比如,在《喜剧之王》中,最后一场戏,周星驰饰演的尹天仇在对柳飘飘喊出那句经典的 "我养你 "之后,柳飘飘坐在离去的出租车上,很伤心地哭了,她看了一会儿手里的钱和手表,然后把它们放进包里,掏出那本被她视为信仰的《演员的自我修养》,很伤心地哭了。演员的自我修养》,伤心地抱在胸前。
这种表演是连续的。连续的表演才有张力。只有当你能感受到它,那种隐隐作痛的情感。

而现在,有了人工智能,生成可以做连续动作的角色表演不再是空谈。


再看另一个案例,一个男人喝了一口咖啡,然后放下,一个女人从后面走过来。

此外,人物的表情也很精彩,老人一会儿笑,一会儿哭。


我也想哭,真的。
去年 8 月,当我为《流浪地球 3》制作预告片时,我幻想了无数种人工智能扮演角色的可能性。
一年后的今天,豆瓣帮我实现了这个最大的梦想。

多摄像机组合视频


只需一张图片+提示,就能生成风格、场景和人物一致的多镜头视频,这种能力我只在 Sora 的宣传片中见过。
这就是那段著名的狼对月嚎叫的视频。


其实,说实话,这段视频在当时看的时候非常震撼,但现在看其实也还好,风格、人物和场景都非常简单,很好地保持了连贯性,没有复杂的故事和支线情节。
但仅此而已,现在仍然没有任何人工智能视频可以在一个视频中完成多个镜头的拍摄,而且还能保持完美的一致性。
别跟我提什么 LTX 工作室,那东西用来做故事板还行,但用来拍故事片?洗洗你的屁股吧,别说场景了,全景、中景和特写中的人物都很难保持一致。而且真的很难看。
但现在,豆瓣像素舞做到了,其一致性简直无与伦比,真的。
而且只需一张图片+提示。
比如,这个。

提示:手持镰刀的死神向女子逼近。女子惊恐尖叫时的面部特写。


极致的摄像机控制


豆瓣像素舞的建模是我见过的最离谱、最棒的。
现在的 AI 视频镜头控制,基本还是集中在摄像头+运动刷两个功能的组合上,但说实话,上限实在有限,很多大镜头和变焦,根本做不到。
还有《豆瓣像素舞》,效果真他妈令人发指。
什么鸟瞰放大和旋转这种基础操作我就不说了,关键是,一句话,各种围绕拍摄对象的360度环绕、前后视角变焦、平移、目标跟随、升降镜头什么的都可以。
效果出乎意料的好,我第一次在人工智能视频中看到,传送镜可以这么棒,这么酷。
直接查看案件。

提示:女人微笑着低下头,镜头拉远,一个白人男子凝视着女人。


变焦极其自然流畅,无敌,太无敌了。
还有这一个,360 度大幅度迂回运球。
提示:黑白风格,镜头围绕着戴墨镜的女子拍摄,从她的侧面移到正面,最后对准女子的脸部特写。

这是一张图片,然后是一个提示,你信吗?这动作幅度,这稳定性,比他妈的建模还离谱,我真是服了。
你怎么能让摄影师还玩,疯了啊......

写在最后


索拉巨型期货,从 2.16 日到如今,迟迟不见踪迹。
而后,6.6,可伶无声,正式上线,代表中国输出索拉。
而今天,9.24,ByteDances 再次将 AI 视频,推到了一个全新的高度,是一个在 Sora 的宣传视频中,看不到高度的视频。
到目前为止,中国还不需要索拉,豆宝模式就是天。
豆瓣 PixelDance 也不需要任何中文版索拉的昵称,豆瓣 PixelDance 就是豆瓣 PixelDance,他就是现在的天籁 AI 视频。
也正因如此,人工智能视频不再是玩具,而是实实在在、可以进入影视、广告、动画工作流程,带来一些新的想象空间。
这一枪是我们开的。
今天这款豆瓣 PixelDance 的机型,会优先向企业开放测试邀请,过几天就上火山方舟,至于什么时候上线那个梦想,向 C 端用户全面开放,可能还要等一段时间,毕竟太新了,他们表示还是要优化优化机型能力,稳定之后,再直接上线那个梦想,向全面开放。
真的,从来没有什么奇迹,一切都是多年沉淀的积累,一切都是如约而至。
今天,我也能喊出这句话:

PixelDance 制作的其他视频:

At Last : 如何立即申请 PixelDance?

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo

首先注册您的账户:

账号登录-火山引擎 (volcengine.com)

使用手机登录。

在此申请访问权限:

现在您已经完成了,请等待答复。