组合多个LLM真的有帮助吗?研究揭示被忽视的天花板

来源: arXiv (cs.AI/cs.LG) | 发布日期: 2026-06-25 | 链接: https://arxiv.org/abs/2606.27288

文章摘要

本文系统分析了多模型LLM系统(路由、投票、级联、融合、MoA)的能力上限。研究发现,任意单输出策略的准确率不能超过 1-beta,其中 beta 是所有模型在同一问题上全部答错的比例(co-failure rate)。通过对67个模型、21家提供商进行大规模实验,发现在开放式数学任务上 beta=0.052(理论预期0.023),实际 co-failure 概率是理论预测的2.5倍。在自由回答形式下 beta 升至 0.127,说明答案格式是 co-failure 的关键来源。核心结论:在缺乏强查询级路由信号的情况下,组合模型很少能战胜单最佳模型——收益来自于模型在不同问题上出错,而非添加更多模型。

为什么重要

当前业界热衷于用多模型投票、路由或 MoA(Mixture of Agents)来提升效果,但这些方法的效果被系统性高估。本文用严格的数学 bound 揭示了上限:无论算法多精巧,准确率都无法突破 1-co-failure-rate。这对实际系统设计有根本性影响——与其堆模型数量,不如解决共同失败模式。

关键要点