自主经验探索让小模型也能成为强GUI Agent

来源：arXiv (cs.CL/cs.AI/cs.CV) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27330 · 2026-06-28

来源: arXiv (cs.CL/cs.AI/cs.CV) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27330

文章摘要

本文提出 PEEU（Planning Experience Exploration and Utilization）方法，让小参数开源 MLLM（≤7B）通过自主环境探索获取经验，从而在 GUI 任务上追上甚至超越大模型。核心思路：Agent 在真实网页环境中自主探索，记录成功的高层任务分解作为训练数据，再用 hindsight 经验合成严格对齐的高层训练样本。引入 TDHAF 框架分析发现：掌握低层原子技能不等于具备高层规划能力——高层任务训练才是 OOD 泛化的关键。实验结果：7B 模型达到 30.6% 准确率，超越 Qwen2.5-VL-32B（远大于自身）。

为什么重要

开源小模型在 GUI 自动化上长期落后于商业大模型，主要原因是规划能力弱、跨网站泛化差。本文证明：小模型缺的不是"能力"而是"经验"——通过自主探索合成高质量训练数据，7B 模型可以打败 32B 模型。这为私有化、可控的 GUI Agent 部署提供了可行路径。

关键要点

核心方法：自主探索环境→发现经验→hindsight 合成高层任务→训练规划能力
关键发现：低层技能不等于高层规划；高层任务训练才是 OOD 泛化关键
实验结果：7B PEEU 模型 30.6% 准确率，超越 Qwen2.5-VL-32B
意义：为隐私敏感场景（小模型本地部署）提供了 GUI Agent 的高效训练范式