BINEVAL:将LLM评估分解为二元问题,透明可诊断
来源:arXiv (cs.AI/cs.CL) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27226 · 2026-06-28
来源: arXiv (cs.AI/cs.CL) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27226
文章摘要
本文提出 BINEVAL 框架,将 LLM 评估标准分解为原子级二元问题(是/否),再聚合为多维度可解释分数。给定任务 prompt,meta-prompt 生成细粒度评估问题,LLM 独立回答每个输出,最终汇总为透明的问题级反馈和校准的总分。在 SummEval、Topical-Chat、QAGS 上匹配或超越 UniEval 和 G-Eval,在事实一致性基准上尤其出色。关键优势:问题级反馈可直接用于迭代 prompt 优化,在 SummEval 和 IFBench 上同时改善评估器和生成器 prompt。
为什么重要
当前 LLM 评估存在三个痛点:人工评估慢贵、词汇指标与人类判断相关性差、全局评分不透明难以诊断。BINEVAL 通过将评估分解为原子二元问题,同时解决了这三个问题——既透明可解释,又能直接指导 prompt 优化。这对于需要可信赖、可审计 AI 评估的系统(如医疗、法律、金融)尤为重要。
关键要点
- 核心机制:评估标准 → 多个原子二元问题 → LLM 独立回答 → 聚合为多维分数
- 对比优势:比 UniEval/G-Eval 更透明(可看到每个问题);避免天花板效应
- 应用延伸:问题级反馈可反向优化 prompt;同时改善评估器和生成器
- 跨任务验证:SummEval(摘要)、Topical-Chat(对话)、QAGS(事实一致性)
- 意义:为高风险场景的 AI 评估提供了透明、可诊断、可优化的新范式