无需真值解的强化学习也能提升LLM性能

来源: arXiv (cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27369

文章摘要

本文提出 RiVER(Ranking-induced VERifiable)框架,解决了强化学习训练 LLM 时依赖真值答案的痛点。传统 RLVR 需要ground-truth solution才能分配奖励,但现实任务往往没有标准答案。RiVER 利用确定性执行反馈作为连续值监督信号,通过组内相对排序来校准奖励规模,避免了"尺度主导"和"频率主导"两大问题。在12个 AtCoder 启发式竞赛任务上微调 Qwen3-8B 和 GLM-Z1-9B-0414,ALE-Bench 评分分别提升 8.9% 和 9.4%。更关键的是,纯分数优化训练的模型在 LiveCodeBench 和 USACO 等精确答案基准上也实现了正向迁移(平均提升 2.4% 和 3.5%)。

为什么重要

长期以来,RLVR(基于可验证奖励的强化学习)被限制在有明确答案的领域(如数学证明、代码执行),因为它需要 ground-truth solution 来打分。但真实世界的AI任务——代码优化、产品策略分析、系统调试——往往没有唯一正确答案。本文首次证明:在纯分数优化任务上训练,无需真值,也能泛化到精确答案任务。这相当于打开了 RLVR 进入开放域任务的门。

关键要点