组合多个LLM真的有帮助吗?研究揭示被忽视的天花板
来源:arXiv (cs.AI/cs.LG) | **发布日期**: 2026-06-25 | **链接**: https://arxiv.org/abs/2606.27288 · 2026-06-28
来源: arXiv (cs.AI/cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27288
文章摘要
本文系统分析了多模型LLM系统(路由、投票、级联、融合、MoA)的能力上限。研究发现,任意单输出策略的准确率不能超过 1-beta,其中 beta 是所有模型在同一问题上全部答错的比例(co-failure rate)。通过对67个模型、21家提供商进行大规模实验,发现在开放式数学任务上 beta=0.052(理论预期0.023),实际 co-failure 概率是理论预测的2.5倍。在自由回答形式下 beta 升至 0.127,说明答案格式是 co-failure 的关键来源。核心结论:在缺乏强查询级路由信号的情况下,组合模型很少能战胜单最佳模型——收益来自于模型在不同问题上出错,而非添加更多模型。
为什么重要
当前业界热衷于用多模型投票、路由或 MoA(Mixture of Agents)来提升效果,但这些方法的效果被系统性高估。本文用严格的数学 bound 揭示了上限:无论算法多精巧,准确率都无法突破 1-co-failure-rate。这对实际系统设计有根本性影响——与其堆模型数量,不如解决共同失败模式。
关键要点
- 理论贡献:提出 co-failure rate (beta) 作为多模型系统的终极瓶颈,提供 Clopper-Pearson 有限样本置信区间
- 实证发现:67模型 Gaussian copula 预测 co-failure 概率为0.023,实测为0.052(2.5倍低估)
- 答案格式效应:从选择题改为自由回答后 beta 从0.052升至0.127,co-failure 从题目难度转向格式难度
- 实践建议:路由系统需要 query-level 信号;异构低相关ensemble优于高相关同质MoA;在可检查任务上,加模型不如解决共同错误