声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:xxxxx,授权站长之家转载发布。
你说箱子里要装满钻石,于是箱子被钻石填满,比实拍还要耀眼。这样的技能,哪个剧组不喜欢?
这是前段时间[] Adobe 旗下的视频剪[]辑软件 Premie[]re Pro 所呈现的「魔[]法」。该软件[]通过引入 Sora、R[]unway、[]Pika 等 AI 视频工具,实[]现在视频中添[]加物体、消除[]物体以及生成[]视频片段等能[]力,这被视为[]视频领域的再[]一次技术革新[]。
从2月份 Sora 席卷全球到如今 Adobe 再施魔法,海外热火朝天。相比之下,国内在视频领域,尤其是长视频生成方向还处于「等待」状态。在过去的两个月里,我们已经听到了一些宣称追赶 Sora 的声音,但是目前还没有看到国内取得明显进展。但今天生数科技刚刚发布的这支短片,让我们看到了不少惊喜。
这是生数科技联合清华大学最新发布的视频大模型「Vidu」所官宣的视频。可以看出,它生成的视频不再是持续几秒的「GIF」,而是达到了十几秒(最长可以达到16秒左右)。当然更令人惊喜的是,「Vidu」画面效果非常接近 Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都非常出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。在短短两个月的时间,生数科技能实现到这般效果,着实令人惊喜。
国内首个全面对标 Sora 的视频模型
自 Sora 发布之后,「[]国产 Sora」的[]争夺战就打响[]了。但当行业[]都聚焦于「长[]」这一特性时[],却都忽略了[] Sora 的背后其实是[]综合效果的提[]升,例如长时[]序下的一致性[]、真实度、美[]观性等等。
从综合效果看,「Vidu」是首个也是唯一在效果层面全面对标 Sora 的视频模型,不仅仅在国内,在全球范围,也是继 Sora 之后首个完成突破的视频模型。从具体效果,可以显著看到几处明显的优势:
给视频注入「镜头语言」
在视频制作中[]有个非常重要[]的概念 —— 镜头语言。它[]是通过画面来[]表达故事情节[]、揭示角色心[]理、营造氛围[]以及引导观众[]情感的主要方[]式。不同的镜[]头选择、角度[]、运动和组合[]将极大地影响[]叙事的效果和[]观众的感受。[]
现有 AI 生成的视频,能够明显地感觉到镜头语言的单调,镜头的运动局限于轻微幅度的推、拉、移等简单镜头。其背后的主要原因是,现有的视频内容生成大多是先通过生成单帧画面,再做连续的前后帧预测,但主流的技术路径,很难做到长时序的连贯预测,只能做到小幅的动态预测。
Runway[] 在去年7月份[]生成的科幻电[]影预告片《T[]railer[]: Genesi[]s》(《创世[]纪》)。
「Vidu」则突破了这些局限。在一个「海边小屋」为主题的片段中,我们可以看到,「Vidu」一次生成的一段片段中涉及多个镜头,画面既有小屋的近景特写,也有望向海面的远眺,整体看下来有种从屋内到走廊再到栏杆边赏景的叙事感。可以看出,「Vidu」能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换。
提示:在一个[]古色古香的海[]边小屋里,阳[]光沐浴着房间[],镜头缓慢过[]渡到一个阳台[],俯瞰着宁静[]的大海,最后[]镜头定格在漂[]浮着大海、帆[]船和倒影般的[]云彩。(生数[]旗下 PixWea[]ver 产品官网放出[]的完整视频片[]段)
此外,从短片中的多个片段能看到,「Vidu」能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面,给视频注入镜头语言,提升画面的整体叙事感。
保持时间和空间的一致性
视频画面的连[]贯和流畅性至[]关重要,这背[]后其实是人物[]和场景的时空[]一致性,比如[]人物在空间中[]的运动始终保[]持一致,场景[]也不能在没有[]任何转场的情[]况下突变。而[]这一点 AI 很难实现,尤[]其时长一长,[]AI 生成的视频将[]出现叙事断裂[]、视觉不连贯[]、逻辑错误等[]问题, 这些问题会严[]重影响视频的[]真实感和观赏[]性。
「Vidu」在一定程度上克服了这些问题。从它生成的一段「带珍珠耳环的猫」的视频中可以看到,随着镜头的移动,作为画面主体的猫在3D 空间下一直保持着表情、服饰的一致,视频整体上非常连贯、流畅,保持了很好的时间、空间一致性。
提示:这是一[]只蓝眼睛的橙[]色猫的肖像,[]慢慢地旋转,[]灵感来自维米[]尔的《戴珍珠[]耳环的少女》[],画面上戴着[]珍珠耳环,棕[]色头发像荷兰[]帽一样,黑色[]背景,工作室[]灯光。(生数[]旗下 PixWea[]ver 产品官网放出[]的完整视频片[]段)
模拟真实物理世界
Sora 令人惊艳的一大特点,就是能够模拟真实物理世界的运动,例如物体的移动和相互作用。其中 Sora 发布过的一个经典案例 ——「一辆老式 SUV 行驶在山坡上」的画面,非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化。在同样的提示词下,「Vidu」与 Sora 生成效果高度接近,灰尘、光影等细节与人类在真实物理世界中的体验非常接近。
提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在 SUV 上,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。(生数旗下 PixWeaver 产品官网放出的完整视频片段)
Sora的生[]成效果。
当然在「带有[]黑色车顶行李[]架」的局部细[]节上,「Vi[]du」没能生[]成出来。但瑕[]不掩瑜,它的[]整体效果已高[]度接近真实世[]界。
丰富的想象力
与实景拍摄相比,用 AI 生成视频有一个很大的优势 —— 它可以生成现实世界中不存在的画面。以往,这些画面往往要花费很大的人力、物力去搭建或做成特效,但是 AI 短时间就可以自动生成了。
比如在下面这个场景中,「帆船」、「海浪」罕见地出现在了画室里,而且海浪与帆船的交互动态非常自然。
提示:画室里的一艘船驶向镜头。(生数旗下 PixWeaver 产品官网放出的完整视频片段)
短片中的「鱼[]缸女孩」的片[]段也是奇幻但[]又具有一定的[]合理感。这种[]能够虚构真实[]世界不存在的[]画面的能力,[]对于创作超现[]实主义内容非[]常有帮助,不[]仅可以激发创[]作者的灵感,[]提供新颖的视[]觉体验,还能[]拓宽艺术表达[]的边界,带来[]更加丰富和多[]元化的内容形[]式。
理解中国元素
除了以上四方[]面的特点外,[]我们从「Vi[]du」放出的[]短片中还看到[]了一些不一样[]的惊喜,「V[]idu」能够[]生成特有中国[]元素的画面,[]比如熊猫、龙[]、宫殿场景等[]。
提示:在宁静[]的湖边,一只[]熊猫热切地弹[]着吉他,让整[]个环境变得活[]跃起来。晴朗[]天空下平静的[]水面倒映着这[]一场景,以生[]动的全景镜头[]捕捉到,将现[]实主义与大熊[]猫活泼的精神[]融为一体,创[]造出活力与平[]静的和谐融合[]。(生数旗下[] PixWea[]ver 产品官网放出[]的完整视频片[]段)
两个月快速突破,背后是怎么做到的?
「Vidu」[]背后的研发团[]队生数科技是[]国内多模态大[]模型方向的创[]业团队,核心[]成员来自清华[]大学人工智能[]研究院,团队[]专注于图像、[]3D、视频等[]多模态生成领[]域。
在今年1月份[],生数科技在[]旗下视觉创意[]设计平台 PixWea[]ver 就上线了短视[]频生成功能,[]支持4秒高美[]学性的短视频[]内容。2月份[] Sora 推出后,据悉[],生数科技内[]部成立了正式[]的攻坚小组,[]加快了原本视[]频方向的研发[]进度,3月份[]内部就实现了[]8秒的视频生[]成,紧接着4[]月份就突破了[]16秒生成,[]生成质量与时[]长全方面取得[]突破。
众所周知,S[]ora 并没有公布太[]多的技术细节[],能在这么短[]的时间内取得[]突破,背后核[]心是团队深厚[]的技术积累和[]诸多从0到1[]的原创成果,[]尤其是在最核[]心的技术架构[]层面。
「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在2022年9月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。
在 DiT 论文发布两个[]月前,清华大[]学的朱军团队[]提交了一篇论[]文 ——《All[] are Worth Words:[] A ViT Backbo[]ne for Diffus[]ion Models[]》。这篇论文[]提出了用 Transf[]ormer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。[]这是「Vid[]u」最重要的[]技术基础。
在技术路线上[],「Vidu[]」采用了和 Sora 完全一致的 Diffus[]ion 和 Transf[]ormer 融合的架构。[]不同于采用插[]帧的多步骤处[]理方式来达到[]长视频的生成[],「Vidu[]」采用的是和[] Sora 一致的路线,[]即通过单一步[]骤直接生成高[]质量的视频。[]从底层来看,[]这是一种「一[]步到位」的实[]现方法,基于[]单一模型完全[]端到端生成,[]不涉及中间的[]插帧和其他多[]步骤的处理,[]文本到视频的[]转换是直接且[]连续的。
另外基于 U-ViT 架构,2023年3月,团队在开源的大规模图文数据集 LAION-5B 上训练了10亿参数量的多模态模型 ——UniDiffuser,并将其开源(参见《清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下》)。
UniDiffuser 主要擅长图文任务,能支持图文模态间的任意生成和转换。UniDiffuser 的实现有一项重要的价值 —— 首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将 U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser 比同样 DiT 架构的图文模型 Stable Diffusion3的提出领先了一年。
这些在图文任[]务中积累的工[]程经验为视频[]模型的研发打[]下了基础。因[]为视频本质上[]是图像的流,[]相当于是图像[]在时间轴上做[]了一个扩增。[]因此,在图文[]任务上取得的[]成果往往能够[]在视频任务中[]得到复用。S[]ora 就是这么做的[]:它采用了 DALL・E[]3的重标注技[]术,通过为视[]觉训练数据生[]成详细的描述[],使模型能够[]更加准确地遵[]循用户的文本[]指令生成视频[]。这种效应也[]必然会发生在[]「Vidu」[]上面。
根据此前生数科技组织的一场小规模沟通会上的消息推测,「Vidu」也复用了生数科技在图文任务的很多经验,包括训练加速、并行化训练、低显存训练等等,从而快速跑通了训练流程。据悉,他们通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升1倍,显存开销降低80%,训练速度累计提升40倍。
从图任务的统[]一到融合视频[]能力,「Vi[]du」可被视[]为一款通用视[]觉模型,能够[]支持生成更加[]多样化、更长[]时长的视频内[]容。官方也透[]露,「Vid[]u」目前还在[]加速迭代提升[]。面向未来,[]「Vidu」[]灵活的模型架[]构也将能够兼[]容更广泛的多[]模态能力。
来自清华系的精干团队
最后,再聊下[]「Vidu」[]背后的团队 —— 生数科技,这[]是一支清华背[]景的精干团队[]。
生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。
团队从事生成式人工智能和贝叶斯机器学习的研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
团队于 ICML、N[]eurIPS[]、ICLR 等人工智能顶[]会发表多模态[]领域相关论文[]近30篇,其[]中提出的免训[]练推理算法 Analyt[]ic-DPM[]、DPM-S[]olver 等突破性成果[],获得 ICLR 杰出论文奖,[]并被 OpenAI[]、苹果、St[]abilit[]y.ai 等国外前沿机[]构采用,应用[]于 DALL・E[]2、Stab[]le Diffus[]ion 等明星项目中[]。
自2023年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。此次「Vidu」的推出,是生数科技在多模态原生大模型领域的再一次创新和领先。
评论区
提示:本文章评论功能已关闭