6月6日 消息:快手公司推出了一款名为可灵的全新国产视频生成大模型,它采用了与Sora相似的技术路线,并结合了快手自研的技术创新。这款模型能够生成长达2分钟、30fps、1080p分辨率的超长视频,并支持多种宽高比。不同于实验室的Demo或视频演示,「可灵」是快手推出的产品级应用,并已在快影APP中正式开启邀测。
可灵大模型能够在想象中天马行空,同时在描绘运动时符合真实的运动规律,准确刻画复杂、大幅度的时空运动。它不仅能模拟真实物理世界的特性,生成符合物理规律的视频,还能处理与真实物理世界的交互,例如在视频中展现小男孩吃汉堡时齿印的变化。
可灵采用了原[]生的文生视频[]技术路线,替[]代了图像生成[]加时序模块的[]组合,这是它[]能够生成视频[]时间长、帧率[]高,并准确处[]理复杂运动的[]关键。快手大[]模型团队着重[]考虑了模型设[]计、数据保障[]、计算效率以[]及模型能力的[]扩展这四大核[]心要素。
在模型设计方[]面,可灵采用[]了类Sora[]的DiT结构[],用Tran[]sforme[]r代替了传统[]扩散模型中基[]于卷积网络的[]U-Net,[]并通过自研的[]3D VAE网络和[]全注意力机制[](3D Attent[]ion)提升[]模型的建模能[]力。
数据构建方面[],快手大模型[]团队构建了完[]备的标签体系[],精细化筛选[]训练数据,并[]研发了视频描[]述模型,以生[]成精确、详尽[]、结构化的视[]频描述。
运算效率方面[],「可灵」使[]用了传输路径[]更短的flo[]w模型作为扩[]散模型基座,[]并采用分布式[]训练集群和算[]子优化等手段[]提升硬件利用[]率。
模型能力扩展[]方面,「可灵[]」支持自由的[]长宽比,并研[]发了基于自回[]归的视频时序[]拓展方案,同[]时还支持多种[]控制信息输入[]。
可灵大模型的[]应用不仅限于[]视频生成,快[]手还基于此模[]型推出了其他[]应用,如&q[]uot;AI[]舞王&quo[]t;和&qu[]ot;AI唱[]跳"[];,并即将推[]出图生视频功[]能。
快手在大模型[]技术方面动作[]迅速,已与多[]个高校或科研[]机构合作发布[]了多项关键技[]术,为可灵大[]模型积累了深[]厚的技术沉淀[]。现在,快手[]的文生视频功[]能已正式亮相[],期待其在短[]视频场景中的[]应用落地。
对AI视频创作感兴趣的用户,可以在快影APP中体验可灵大模型的功能。
官网地址:https://kling.kuaishou.com/
评论区
提示:本文章评论功能已关闭