Pandora:根据自然语言指令生成动作和视频的通用世界模型
Pandora:根据自然语言指令生成动作和视频的通用世界模型
登录
Pandora:根据自然语言指令生成动作和视频的通用世界模型
Pandora:根据自然语言指令生成动作和视频的通用世界模型

Pandora:根据自然语言指令生成动作和视频的通用世界模型

划重点:

🔍 Pandora 是一个通向通用世界模型(GWM)的重要步骤,通过生成视频来模拟任何领域的世界状态。

🔍 Pandor[]a 可以接受自然[]语言输入作为[]动作,并在视[]频生成过程中[]实时控制视频[]内容,与之前[]只能在视频开[]始时输入文本[]提示的文本到[]视频模型有着[]关键的不同。[]

🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频,让用户能够自主控制未来的发展。

5月24日 消息:Pandora 是一个研究通用世界模型(GWM)的重要进展,其目标是通过生成视频来模拟任何领域的世界状态,并提供自然语言的实时控制。

与之前的文本到视频模型不同,Pandora 可以接受自由文本的动作输入,实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺,并增强了强大的推理和规划能力。比如生成视频的过程中,用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”,Pandora 会即时地根据这些指令调整视频内容,实现动态控制。

Pandora:根据自然语言指令生成动作和视频的通用世界模型

产品入口网址:https://top.aibase.com/tool/pandora

Pandor[]a 还能够生成基[]于相同初始状[]态但不同动作[]的多个替代未[]来的视频。用[]户可以通过输[]入不同的动作[]来控制视频的[]发展方向,实[]现对未来的自[]主控制。这种[]能力使得世界[]模型不再只是[]模拟替代未来[],而是能够真[]正实现对未来[]的控制。

Pandor[]a 能够在各种通[]用领域生成视[]频,包括室内[] / 室外、自然 / 城市、人类 / 机器、2D/[]3D 等场景。通过[]使用高质量数[]据进行指导和[]训练,模型可[]以学习有效的[]动作控制,并[]在不同领域中[]实现迁移学习[]。例如,Pa[]ndora 在训练时只接[]触过2D 游戏 Coinru[]n,但可以无[]缝地将学到的[]动作应用于其[]他2D 游戏。

Pandor[]a 将视频模型与[]自主生成的 Pandor[]a 背骨结合在一[]起,可以生成[]更长的视频,[]甚至可以达到[]无限长度。通[]过这种结合,[]Pandor[]a 能够生成长达[]8秒的视频,[]即使训练时的[]视频长度最多[]只有5秒。

然而,作为通[]向 GWM 的初步步骤,[]Pandor[]a 仍然存在一些[]限制。它可能[]无法生成一致[]的视频,模拟[]复杂场景,理[]解常识和物理[]定律,以及遵[]循指令 / 动作。

Pandora 是通向通用世界模型的重要一步,它通过自然语言动作和视频状态的模拟生成,实现了对未来的自主控制,为交互式内容生成、强大的推理和规划能力提供了支持。

    版权归属: noBug
    本文链接: https://wucuo.com/post/1339
    相关推荐

    评论区

    提示:本文章评论功能已关闭