Self-Evolving World Models for LLM Agent Planning

为什么重要

LLM Agent 在复杂环境中的长期规划能力，长期受限于模型对物理世界和任务状态的表征精度。本研究提出"自进化世界模型"（Self-Evolving World Model），使 Agent 能够在任务执行过程中持续更新其对环境的内部表征，从而实现更准确的前瞻推理与适应性规划。这是推动 LLM Agent 从"短视执行"走向"战略性自主"的关键一步，对机器人控制、科学推理等需要精确世界理解的应用场景意义重大。

关键要点

世界模型的主动自我修正机制：框架引入基于经验回放的在线学习模块，Agent 在每轮规划-执行循环后评估预测误差，并据此更新世界模型的参数，实现表征的持续精化，而非依赖固定预训练知识。
层次化规划与世界模型的协同：将长期任务拆解为多尺度子目标，利用世界模型对每个子目标的结果进行蒙特卡洛树搜索（MCTS）式模拟，选择成功概率最高的动作序列，显著提升了复杂任务的完成率。
对分布外环境的鲁棒性：在训练阶段未见过的物理环境中（如新物体属性、未探索的空间布局），自进化世界模型通过少量在线交互即可快速适应，优于传统固定世界模型和纯强化学习方法。
与主流 Agent 框架的兼容性：该方法以即插即用模块形式实现，可无缝集成到 ReAct、Plan-and-Execute 等现有 Agent 架构中，降低了实际部署的工程门槛。

来源：全文 | 原文