组合多个LLM真的有帮助吗？研究揭示被忽视的天花板

来源：arXiv (cs.AI/cs.LG) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27288 · 2026-06-28

来源: arXiv (cs.AI/cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27288

文章摘要

本文系统分析了多模型LLM系统（路由、投票、级联、融合、MoA）的能力上限。研究发现，任意单输出策略的准确率不能超过 1-beta，其中 beta 是所有模型在同一问题上全部答错的比例（co-failure rate）。通过对67个模型、21家提供商进行大规模实验，发现在开放式数学任务上 beta=0.052（理论预期0.023），实际 co-failure 概率是理论预测的2.5倍。在自由回答形式下 beta 升至 0.127，说明答案格式是 co-failure 的关键来源。核心结论：在缺乏强查询级路由信号的情况下，组合模型很少能战胜单最佳模型——收益来自于模型在不同问题上出错，而非添加更多模型。

为什么重要

当前业界热衷于用多模型投票、路由或 MoA（Mixture of Agents）来提升效果，但这些方法的效果被系统性高估。本文用严格的数学 bound 揭示了上限：无论算法多精巧，准确率都无法突破 1-co-failure-rate。这对实际系统设计有根本性影响——与其堆模型数量，不如解决共同失败模式。

关键要点

理论贡献：提出 co-failure rate (beta) 作为多模型系统的终极瓶颈，提供 Clopper-Pearson 有限样本置信区间
实证发现：67模型 Gaussian copula 预测 co-failure 概率为0.023，实测为0.052（2.5倍低估）
答案格式效应：从选择题改为自由回答后 beta 从0.052升至0.127，co-failure 从题目难度转向格式难度
实践建议：路由系统需要 query-level 信号；异构低相关ensemble优于高相关同质MoA；在可检查任务上，加模型不如解决共同错误