无需真值解的强化学习也能提升LLM性能
来源: arXiv (cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27369
文章摘要
本文提出 RiVER(Ranking-induced VERifiable)框架,解决了强化学习训练 LLM 时依赖真值答案的痛点。传统 RLVR 需要ground-truth solution才能分配奖励,但现实任务往往没有标准答案。RiVER 利用确定性执行反馈作为连续值监督信号,通过组内相对排序来校准奖励规模,避免了"尺度主导"和"频率主导"两大问题。在12个 AtCoder 启发式竞赛任务上微调 Qwen3-8B 和 GLM-Z1-9B-0414,ALE-Bench 评分分别提升 8.9% 和 9.4%。更关键的是,纯分数优化训练的模型在 LiveCodeBench 和 USACO 等精确答案基准上也实现了正向迁移(平均提升 2.4% 和 3.5%)。
为什么重要
长期以来,RLVR(基于可验证奖励的强化学习)被限制在有明确答案的领域(如数学证明、代码执行),因为它需要 ground-truth solution 来打分。但真实世界的AI任务——代码优化、产品策略分析、系统调试——往往没有唯一正确答案。本文首次证明:在纯分数优化任务上训练,无需真值,也能泛化到精确答案任务。这相当于打开了 RLVR 进入开放域任务的门。
关键要点
- 核心问题:无真值时,纯执行分数在不同测试实例上量纲差异(scale dominance)和重复采样次优解(frequency dominance)会扭曲策略更新
- 解决方案:校准奖励塑形(calibrated reward shaping)+ 实例内比较 + 强调排名靠前的解
- 实验结果:Qwen3-8B 在 ALE-Bench 上 +8.9%;GLM-Z1-9B-0414 +9.4%;且在 LiveCodeBench/USACO 上正向迁移
- 意义:训练信号从"有正确答案"扩展到"有执行反馈",覆盖范围大幅扩展