Genie 3: Generate and explore interactive worlds

为什么重要

Genie 3 是 Google DeepMind 在世界模型和交互式内容生成领域的最新突破，能够从文本描述或图像输入中实时生成可探索的 3D 交互式世界。这一能力对 AI Agent 的训练和测试意义深远：Agent 可以在虚拟世界中获得几乎无限的训练环境，且环境可精确控制，从而实现高效且安全的技能习得。同时，它也为游戏、仿真和机器人训练等领域提供了全新的内容创作范式。

关键要点

实时生成可交互 3D 世界：Genie 3 基于大规模视频数据训练，能理解物理规律和空间逻辑，生成的虚拟世界不仅在视觉上连贯，还具备真实的碰撞、力学和光照响应，Agent 可以直接在其中执行导航、操作等任务。
多模态条件生成：支持文本描述、参考图像或两者的组合作为生成条件，用户可以用自然语言指定地形风格、物体布局或任务目标，Genie 3 自动构建相应的可交互场景，降低了 3D 环境创建的技术门槛。
支撑 Agent 的可扩展训练：生成的虚拟世界可用于训练具身 Agent（Embodied Agent），DeepMind 同步发布了 Genie 3 在机器人操纵和游戏 AI 上的基准结果，显示 Agent 在虚拟世界中习得的技能可有效迁移到真实物理环境。
开源工具包与社区计划：DeepMind 宣布将 Genie 3 的核心模型以研究许可证形式开源，并提供在线 Playground，供研究社区探索可控世界生成和 Agent 训练的新方法。

来源：全文 | 原文