Pablo Zavala · AI 安全评估 · 研究工程

仅靠置信度会误导监督分流

模型置信度可能在平均意义上校准良好，却仍然无法决定哪些智能体行动值得有限的人类审查。

2026年7月2日 · 4 min

仅靠平均校准无法完成审查分流

一个校准良好的模型仍可能是糟糕的分流系统。校准问的是声明置信度是否在平均意义上匹配准确率。监督分流问的是另一个问题：当审查时间稀缺时，哪些单个智能体决策应该由人来检查。

这个区别对智能体系统很重要，因为监督是一种干预。审查者需要的信号，是能指向人类注意力可能改变结果的决策。

Safe MarketUniverses 将监督转化为带预算的分配问题。每个回合包含连续的智能体决策、固定的人类审查预算，以及一个事后最优 oracle。该 oracle 在看到结果后用同样预算做最优分配。基准用相对这个 oracle 的损失来评分审查规则。

这个基准会把模型自信从“听起来可信”的代理指标中剔除，并奖励那些把注意力导向审查能够改变结果之处的信号。置信度分数可以在总体上表现良好，同时错过那些审查本可避免损失的具体决策。

预注册置信度规则在 120 个回合中表现接近随机。一个简单的证据完整性规则在预注册评分方案下表现更好。即便如此，该结果有保留条件：公开仓库显示这一优势很脆弱，在等权评分下可能翻转。

因此，基准给出更窄的结论：仅靠平均校准缺乏分配有限人类审查预算所需的操作性证据。

用于指导监督的基准应该评价监督决策本身。这意味着要问：

监督基准应该奖励那些把稀缺审查指向可被干预改变结果的信号。