字节跳动发了个超惊艳的AI生视频模型这回像素也跳动了
新闻动态
- 一男人偷盗水库围栏竟是为了……
- 学校门口设带刺防撞栏护学岗网友争议是保护学生还是
- 保障高速铁路线路畅通无阻的防护设施铁路护栏
- 市市容环境卫生管理条例
- 潍坊恒之梦新专利:折叠安全窗户防护栏节省成本又便捷开启窗户!
- 物业公司危险及防备关键(根据侵权职责编司法解说一)
- 藏在农村的暴利小生意投入少年赚百万不敢说一年20万没问题!
- 唏嘘!3岁男孩从27楼坠落当场死亡!
- 阳台改卧室租客意外坠楼谁该担责
- 《清明上河图暗码》总算定档了周一围给张颂文作配这剧要火!
联系我们
字节跳动发了个超惊艳的AI生视频模型这回像素也跳动了
- 作者: bob游戏官网
- 发布时间: 2024-11-19 13:34:23
- 点击:1
国内的科技互联网厂商们就像扎堆看了同一本黄历一样,都赶着这个月搞事情,各种大模型纷纷上新,给人都看倦了。
而今天,字节跳动的火山引擎也官宣了多个新 AI 模型,其中知危编辑部觉得最惊艳的,就是豆包生成视频模型,效果极其强横。
这是一条由图片+提示词生成的视频,我们大家可以看到视频中角色的复杂表情的表现非常自然,发丝的飞舞、马匹头上的棕毛飞舞也很符合物理学,人物在马背上的起伏也很自然。
我们在看这段 “ 骑火箭的男人冲向世界最高城礼堂引发大爆炸 ” 的视频,镜头的移动以及分镜的切换很丝滑,并且画面和画风的一致性保持的很好,中间那个男的紧闭双眼紧张赴死的镜头也很有表现力,画面感拉满了:
不过,众所周知,AI 行业现在有时候宣传资料就跟方便面外包装一样,看上去是一回事,拆开以后又是另一回事。
所以尽管看完这些演示视频以后我们觉得豆包可能真有两下子,但到底货对不对板,咱还是得上手试一试才知道。
所以,我们找到了字节的朋友,要到了这款模型的内测机会,实测一下它的成色。
模型的名字叫 PixelDance( 像素跳动 ),暂时只支持图+文输入生成视频,所以我们下面的测试都是基于图+文来进行生成视频。
看似简单,但是这个需求是比较难的。因为金毛的脸是被娃娃遮挡住的,让其站起并叼走娃娃,对模型生成的一致性有比较大的挑战,在过往的一些模型测试中,一般狗狗的脸和身材不出 2 秒就会开始崩坏。
这 视频,就没有出现太多画面抖动、掉帧和闪烁变形的情况,狗狗起身的动作一气呵成,仔细看它把兔子玩偶拽过来的瞬间,玩偶耳朵会抖动,脚往下踩的时候垫子上也会有凹陷。
也就是说,不仅一致性不错,细节也很好,若不是狗狗毛发纹理有时有些假,给个 9 分都不过分。
然后再把他丢进了 PixelDance 模型,提示词是:摩托车飞速行驶在道路上,街景迅速后退。
在生成的视频中,街景变化流畅,光线的明暗变化也没违和感,特别是大楼灯光和地面上的倒影都一一对应上了。唯一有点小瑕疵的地方就是从对向开过来的车,画面没太控制好。
而 PixelDance 模型也确实没让我们失望,拿筷子的动作很熟练,食物是真吃进了嘴里,面部也没有因为咀嚼的动作而变形。即使提示词里未提及的到后面人群,模型也让他们比较符合日常规律的动了起来,没什么太大的破绽。
其实测到这里,我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些,咱还是多试几次。
在生成的视频中,画面后面的天空、一排房子、往镜头飞来的黑龙,要素基本齐全,镜头还会慢慢仰拍跟随,但是缺点是龙的质感和飞行动作有些假,导致这条视频是我们大家都认为本次测试里最差的一个案例,这可能跟背后的训练素材的局限性有关。
另外,原本照片左下角应该是桥边的栅栏,不了解是否是因为画面太黑,导致模型没识别出来,小小变形了一下。
最后,我们还测试了一个我们大家都认为难度很高、非常考验一致性和对物理世界规则理解的例子,是一张同事们下班喝酒时拍的照片:
生成的视频中,碰杯导致的液体晃动,手部动作让液体倾斜的物理反馈、杯子的反光等处理的都比较不错。
而瑕疵则是桌子下的杯垫和下酒小零食有点鬼畜了,右侧一个同事手里的酒似乎喂到了另一个同事嘴里。
相信看到这,大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判。
虽说还达不到炸裂的程度,但对比市面上一些效果没那么成熟的模型, PixelDance 模型在画面稳定性、一致性上,确实技高一筹。
在与字节的工作人员的沟通中,他们告诉知危编辑部,为做出这种接近影视的光影、色彩效果,还用上了剪映这种专门做剪辑和调色的项目的经验。
在此之前,国内的视频模型已经能够说是各方混战打到乱成一锅粥了,而作为拥有中国最好的短视频平台之一的字节却迟迟没有发布相关模型,隔壁快手家的 “ 可灵 ” 都已经有百万用户了。
现在,字节拿出来的PixelDance 模型,也算是证明了自己,能够说是: