“快手版Sora”可灵开放测试最长可生成2分钟视频

noBug

2024-6-6 / 0 评论 / 300 阅读

6/6

6月6日消息:快手公司推出了一款名为可灵的全新国产视频生成大模型，它采用了与Sora相似的技术路线，并结合了快手自研的技术创新。这款模型能够生成长达2分钟、30fps、1080p分辨率的超长视频，并支持多种宽高比。不同于实验室的Demo或视频演示，「可灵」是快手推出的产品级应用，并已在快影APP中正式开启邀测。

可灵大模型能够在想象中天马行空，同时在描绘运动时符合真实的运动规律，准确刻画复杂、大幅度的时空运动。它不仅能模拟真实物理世界的特性，生成符合物理规律的视频，还能处理与真实物理世界的交互，例如在视频中展现小男孩吃汉堡时齿印的变化。

“快手版Sora”可灵开放测试最长可生成2分钟视频

可灵采用了原[]生的文生视频[]技术路线，替[]代了图像生成[]加时序模块的[]组合，这是它[]能够生成视频[]时间长、帧率[]高，并准确处[]理复杂运动的[]关键。快手大[]模型团队着重[]考虑了模型设[]计、数据保障[]、计算效率以[]及模型能力的[]扩展这四大核[]心要素。

在模型设计方[]面，可灵采用[]了类Sora[]的DiT结构[]，用Tran[]sforme[]r代替了传统[]扩散模型中基[]于卷积网络的[]U-Net，[]并通过自研的[]3D VAE网络和[]全注意力机制[]（3D Attent[]ion）提升[]模型的建模能[]力。

数据构建方面[]，快手大模型[]团队构建了完[]备的标签体系[]，精细化筛选[]训练数据，并[]研发了视频描[]述模型，以生[]成精确、详尽[]、结构化的视[]频描述。

运算效率方面[]，「可灵」使[]用了传输路径[]更短的flo[]w模型作为扩[]散模型基座，[]并采用分布式[]训练集群和算[]子优化等手段[]提升硬件利用[]率。

模型能力扩展[]方面，「可灵[]」支持自由的[]长宽比，并研[]发了基于自回[]归的视频时序[]拓展方案，同[]时还支持多种[]控制信息输入[]。

可灵大模型的[]应用不仅限于[]视频生成，快[]手还基于此模[]型推出了其他[]应用，如&q[]uot;AI[]舞王&quo[]t;和&qu[]ot;AI唱[]跳"[];，并即将推[]出图生视频功[]能。

快手在大模型[]技术方面动作[]迅速，已与多[]个高校或科研[]机构合作发布[]了多项关键技[]术，为可灵大[]模型积累了深[]厚的技术沉淀[]。现在，快手[]的文生视频功[]能已正式亮相[]，期待其在短[]视频场景中的[]应用落地。

对AI视频创作感兴趣的用户，可以在快影APP中体验可灵大模型的功能。

官网地址:https://kling.kuaishou.com/

“快手版Sora”可灵开放测试最长可生成2分钟视频

评论区

分类

存档

标签

搜索

最新评论

“快手版Sora”可灵开放测试 最长可生成2分钟视频

评论区

分类

存档

标签

搜索

最新评论

“快手版Sora”可灵开放测试最长可生成2分钟视频