Pandora:根据自然语言指令生成动作和视频的通用世界模型

noBug

2024-5-24 / 0 评论 / 475 阅读

5/24

划重点:
🔍 Pandora 是一个通向通用世界模型（GWM）的重要步骤，通过生成视频来模拟任何领域的世界状态。
🔍 Pandor[]a 可以接受自然[]语言输入作为[]动作，并在视[]频生成过程中[]实时控制视频[]内容，与之前[]只能在视频开[]始时输入文本[]提示的文本到[]视频模型有着[]关键的不同。[]
🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频，让用户能够自主控制未来的发展。

5月24日消息:Pandora 是一个研究通用世界模型（GWM）的重要进展，其目标是通过生成视频来模拟任何领域的世界状态，并提供自然语言的实时控制。

与之前的文本到视频模型不同，Pandora 可以接受自由文本的动作输入，实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺，并增强了强大的推理和规划能力。比如生成视频的过程中，用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”，Pandora 会即时地根据这些指令调整视频内容，实现动态控制。

Pandora:根据自然语言指令生成动作和视频的通用世界模型

产品入口网址：https://top.aibase.com/tool/pandora

Pandor[]a 还能够生成基[]于相同初始状[]态但不同动作[]的多个替代未[]来的视频。用[]户可以通过输[]入不同的动作[]来控制视频的[]发展方向，实[]现对未来的自[]主控制。这种[]能力使得世界[]模型不再只是[]模拟替代未来[]，而是能够真[]正实现对未来[]的控制。

Pandor[]a 能够在各种通[]用领域生成视[]频，包括室内[] / 室外、自然 / 城市、人类 / 机器、2D/[]3D 等场景。通过[]使用高质量数[]据进行指导和[]训练，模型可[]以学习有效的[]动作控制，并[]在不同领域中[]实现迁移学习[]。例如，Pa[]ndora 在训练时只接[]触过2D 游戏 Coinru[]n，但可以无[]缝地将学到的[]动作应用于其[]他2D 游戏。