BINEVAL：将LLM评估分解为二元问题，透明可诊断

来源：arXiv (cs.AI/cs.CL) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27226 · 2026-06-28

来源: arXiv (cs.AI/cs.CL) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27226

文章摘要

本文提出 BINEVAL 框架，将 LLM 评估标准分解为原子级二元问题（是/否），再聚合为多维度可解释分数。给定任务 prompt，meta-prompt 生成细粒度评估问题，LLM 独立回答每个输出，最终汇总为透明的问题级反馈和校准的总分。在 SummEval、Topical-Chat、QAGS 上匹配或超越 UniEval 和 G-Eval，在事实一致性基准上尤其出色。关键优势：问题级反馈可直接用于迭代 prompt 优化，在 SummEval 和 IFBench 上同时改善评估器和生成器 prompt。

为什么重要

当前 LLM 评估存在三个痛点：人工评估慢贵、词汇指标与人类判断相关性差、全局评分不透明难以诊断。BINEVAL 通过将评估分解为原子二元问题，同时解决了这三个问题——既透明可解释，又能直接指导 prompt 优化。这对于需要可信赖、可审计 AI 评估的系统（如医疗、法律、金融）尤为重要。

关键要点

核心机制：评估标准 → 多个原子二元问题 → LLM 独立回答 → 聚合为多维分数
对比优势：比 UniEval/G-Eval 更透明（可看到每个问题）；避免天花板效应
应用延伸：问题级反馈可反向优化 prompt；同时改善评估器和生成器
跨任务验证：SummEval（摘要）、Topical-Chat（对话）、QAGS（事实一致性）
意义：为高风险场景的 AI 评估提供了透明、可诊断、可优化的新范式