Concept Catalyst: Exploring Scrutable Interfaces for LLMs

为什么重要

LLM 的决策过程对用户而言往往是一个"黑箱"，这种不透明性严重阻碍了人机协作的深度和信任建立。Concept Catalyst 研究探索了"可审视接口"（Scrutable Interface）在 LLM 应用中的设计与实践，通过让模型主动展示推理依据、假设前提和置信度，使用户能够理解、质疑并纠正 Agent 的思考过程。这篇论文对 Human-Computer Interaction 和 AI 对齐两个领域均有重要贡献，是推动 AI 系统从"给出答案"到"可被审视和引导"转变的理论与实践双重探索。

关键要点

可审视性的多层次设计框架：论文提出"局部可审视 → 全局可审视 → 可干预"的递进式设计框架，在不同粒度上向用户展示模型的推理过程，从单个回答的置信度标签到整个对话的目标追溯均有对应设计。
用户实验验证信任提升：通过对照实验发现，使用可审视接口的用户对 Agent 输出的采纳率更高、错误识别率更低，且在"检测到模型推理错误后主动修正"的行为频率显著上升，说明可审视性直接改善了人机协作质量。
概念漂移检测与主动提示：框架引入了"概念催化剂"机制，当检测到模型在核心假设上发生漂移（与初始任务目标偏离）时，主动向用户发出"假设重新确认"提示，邀请用户参与纠正，避免 Agent 在错误方向上越走越远。
对 AI 对齐的启示：论文将可审视性定位为对齐研究的实践出口——如果用户能持续审视和纠正 Agent 的推理，便可在日常使用中实现"分布式对齐"，而不必完全依赖训练期的静态价值对齐。

来源：全文 | 原文