Self-Evolving World Models for LLM Agent Planning

为什么重要

LLM Agent 在复杂环境中的长期规划能力,长期受限于模型对物理世界和任务状态的表征精度。本研究提出"自进化世界模型"(Self-Evolving World Model),使 Agent 能够在任务执行过程中持续更新其对环境的内部表征,从而实现更准确的前瞻推理与适应性规划。这是推动 LLM Agent 从"短视执行"走向"战略性自主"的关键一步,对机器人控制、科学推理等需要精确世界理解的应用场景意义重大。

关键要点

  1. 世界模型的主动自我修正机制:框架引入基于经验回放的在线学习模块,Agent 在每轮规划-执行循环后评估预测误差,并据此更新世界模型的参数,实现表征的持续精化,而非依赖固定预训练知识。

  2. 层次化规划与世界模型的协同:将长期任务拆解为多尺度子目标,利用世界模型对每个子目标的结果进行蒙特卡洛树搜索(MCTS)式模拟,选择成功概率最高的动作序列,显著提升了复杂任务的完成率。

  3. 对分布外环境的鲁棒性:在训练阶段未见过的物理环境中(如新物体属性、未探索的空间布局),自进化世界模型通过少量在线交互即可快速适应,优于传统固定世界模型和纯强化学习方法。

  4. 与主流 Agent 框架的兼容性:该方法以即插即用模块形式实现,可无缝集成到 ReAct、Plan-and-Execute 等现有 Agent 架构中,降低了实际部署的工程门槛。

来源全文 | 原文