一夜之间,AI视频生成领域发生重大变化,你所刷到的视频,极有可能根本并非由真人拍摄而成。就在昨天,字节跳动正式发布了VideoWorld 2.0模型,普通人借助手机即可制作出电影级别的大片,影视行业的门槛已被完全踩平。
真假难辨的时代来了
昨天字节跳动所发布的VideoWorld 2.0模型,使得AI视频生成步入了全新阶段,在2月17日的那场发布会上,技术团队进行了多段样片的展示,其中有一段猫追老鼠的视频,其毛发光泽以及肌肉运动全然契合物理规律,现场众多媒体人的第一反应是此乃实拍。
相较于去年9月所拥有的1.5版本而言,新模型的提升简直称为跨越式的了。测试数据表明,在存在多主体交互这一场景之下,2.0的生成可用率达到了92.3%,这一比例比1.5版本高出了37个百分点。这就意味着过去AI视频当中常常出现的肢体扭曲、穿模这类现象,如今基本上已经消失不见了。
多模态输入打破创作边界
往昔制作视频得具备拍摄能力、懂得剪辑技巧,如今仅需会打字就行。VideoWorld 2.0能够支持同时录入9张图片、3段视频、3段音频以及含有文字表述的指令,系统会自行融合全部素材。北京有一位设计师,于昨晚尝试运用5张从不同角度拍摄的产品照片,搭配一段出现海浪声音的音频,最终直接生成了一段时长为30秒的广告片。
极具颠覆性的乃是声音同步生成功能,以往的AI视频皆是后期进行配音,时常会发生嘴型与之对不上这种尴尬情况,如今模型自身带有双声道音频输出,在生成的视频里人物说话此时口型误差不超过0.1秒,脚步声、环境噪声都能自动匹配画面。
复杂场景不再是难题
AI视频的噩梦一直都是运动场景,跑步、跳跃这类动作常常呈现出反人类姿态。新模型在这一方面下了很大的功夫,测试视频当中有一段芭蕾舞旋转动作,连续旋转8圈,达到720度,脚尖落地的位置十分精准,裙摆飘动的幅度很自然。
记者从上海的一家游戏公司的测试人员处听闻,他们利用2.0来生成游戏角色战斗动画,原本得耗费3天时间手绘的30秒打斗镜头,如今仅用20分钟便完成了。该模型对于刀剑碰撞以及衣服飘动的物理还原程度,已然达到能够直接投入使用的境地了。
普通人也能当导演
视频编辑功能使得创作门槛不断降低,持续下降。以往拍摄视频倘若构图不佳便会作废,如今能够在生成之后直接进行修改。你能够输入指令将背景从白天转变为黄昏,或者把主角的走路姿势由正常变为跳跃,系统会自动重新绘制剩余部分。
更具实用价值的乃是视频延长功能,上传一段时长为5秒的素材,系统能够自动续接出时长为15秒的完整视频,并且其风格、光影全然保持一致,杭州有一位短视频博主进行了实际测试,运用三段时长为2秒的碎片素材,生成了时长为15秒的旅行Vlog,播放量在一夜之间突破了50万。
工业级应用成本骤降
此回变革的重灾区是影视制作这一领域,对于一则时长为30秒的广告片而言,传统方式进行拍摄,需租赁场地,还要聘请演员,之后开展后期剪辑工作,其成本起码从5万元开始起算,如今借助AI进行生成,达成相同效果时成本不足200元,并且能够在24小时内完成。
有一家位于深圳的女装店铺,在电商行业已闻风而动的情况下,于昨天开启通过AI生成模特展示视频的行动,先是上传了10张服装平铺图,进而是选择一种场景模板,结果仅用10分钟便产出了60条存在不同背景的穿搭视频,该店铺老板为此算了一笔账,得出每月能够省下8万元拍摄费这样的结论。
即梦AI和豆包已上线
现阶段,VideoWorld 2.0已然开启使用模式,用户能够于即梦AI网页端径直去体验,哪怕是手机用户也行经由豆包App来调用全新功能,字节跳动官方项目主页预备了详尽的案例库以及技术文档,以供开发者予以深入探究。
需要予以提醒的是,鉴于服务器存在压力,在高峰时段进行生成操作时将需要排队等候。建议避开晚上8点至11点这个使用高峰时段,在白天基本上能够实现秒级响应。影视以及广告从业者能够重点留意多模态输入功能,此乃用于拉开效率差距的关键功能。
你近来刷过的视频,是不是存在一些让你心生怀疑,觉得像是由AI生成的呢?欢迎于评论区分享你所察觉到的疑似AI的视频,瞧瞧大家可不可以帮你辨别真实与否。要是认为这篇文章具备用处,可别忘了点赞并转发给身旁从事视频制作的朋友哟。
