BINEVAL:将LLM评估分解为二元问题,透明可诊断

来源: arXiv (cs.AI/cs.CL) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27226

文章摘要

本文提出 BINEVAL 框架,将 LLM 评估标准分解为原子级二元问题(是/否),再聚合为多维度可解释分数。给定任务 prompt,meta-prompt 生成细粒度评估问题,LLM 独立回答每个输出,最终汇总为透明的问题级反馈和校准的总分。在 SummEval、Topical-Chat、QAGS 上匹配或超越 UniEval 和 G-Eval,在事实一致性基准上尤其出色。关键优势:问题级反馈可直接用于迭代 prompt 优化,在 SummEval 和 IFBench 上同时改善评估器和生成器 prompt。

为什么重要

当前 LLM 评估存在三个痛点:人工评估慢贵、词汇指标与人类判断相关性差、全局评分不透明难以诊断。BINEVAL 通过将评估分解为原子二元问题,同时解决了这三个问题——既透明可解释,又能直接指导 prompt 优化。这对于需要可信赖、可审计 AI 评估的系统(如医疗、法律、金融)尤为重要。

关键要点