Genie 3: Generate and explore interactive worlds
为什么重要
Genie 3 是 Google DeepMind 在世界模型和交互式内容生成领域的最新突破,能够从文本描述或图像输入中实时生成可探索的 3D 交互式世界。这一能力对 AI Agent 的训练和测试意义深远:Agent 可以在虚拟世界中获得几乎无限的训练环境,且环境可精确控制,从而实现高效且安全的技能习得。同时,它也为游戏、仿真和机器人训练等领域提供了全新的内容创作范式。
关键要点
实时生成可交互 3D 世界:Genie 3 基于大规模视频数据训练,能理解物理规律和空间逻辑,生成的虚拟世界不仅在视觉上连贯,还具备真实的碰撞、力学和光照响应,Agent 可以直接在其中执行导航、操作等任务。
多模态条件生成:支持文本描述、参考图像或两者的组合作为生成条件,用户可以用自然语言指定地形风格、物体布局或任务目标,Genie 3 自动构建相应的可交互场景,降低了 3D 环境创建的技术门槛。
支撑 Agent 的可扩展训练:生成的虚拟世界可用于训练具身 Agent(Embodied Agent),DeepMind 同步发布了 Genie 3 在机器人操纵和游戏 AI 上的基准结果,显示 Agent 在虚拟世界中习得的技能可有效迁移到真实物理环境。
开源工具包与社区计划:DeepMind 宣布将 Genie 3 的核心模型以研究许可证形式开源,并提供在线 Playground,供研究社区探索可控世界生成和 Agent 训练的新方法。