无需真值解的强化学习也能提升LLM性能

来源：arXiv (cs.LG) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27369 · 2026-06-28

来源: arXiv (cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27369

文章摘要

本文提出 RiVER（Ranking-induced VERifiable）框架，解决了强化学习训练 LLM 时依赖真值答案的痛点。传统 RLVR 需要ground-truth solution才能分配奖励，但现实任务往往没有标准答案。RiVER 利用确定性执行反馈作为连续值监督信号，通过组内相对排序来校准奖励规模，避免了"尺度主导"和"频率主导"两大问题。在12个 AtCoder 启发式竞赛任务上微调 Qwen3-8B 和 GLM-Z1-9B-0414，ALE-Bench 评分分别提升 8.9% 和 9.4%。更关键的是，纯分数优化训练的模型在 LiveCodeBench 和 USACO 等精确答案基准上也实现了正向迁移（平均提升 2.4% 和 3.5%）。

为什么重要

长期以来，RLVR（基于可验证奖励的强化学习）被限制在有明确答案的领域（如数学证明、代码执行），因为它需要 ground-truth solution 来打分。但真实世界的AI任务——代码优化、产品策略分析、系统调试——往往没有唯一正确答案。本文首次证明：在纯分数优化任务上训练，无需真值，也能泛化到精确答案任务。这相当于打开了 RLVR 进入开放域任务的门。

关键要点

核心问题：无真值时，纯执行分数在不同测试实例上量纲差异（scale dominance）和重复采样次优解（frequency dominance）会扭曲策略更新
解决方案：校准奖励塑形（calibrated reward shaping）+ 实例内比较 + 强调排名靠前的解
实验结果：Qwen3-8B 在 ALE-Bench 上 +8.9%；GLM-Z1-9B-0414 +9.4%；且在 LiveCodeBench/USACO 上正向迁移
意义：训练信号从"有正确答案"扩展到"有执行反馈"，覆盖范围大幅扩展