Pablo Zavala · AI 安全评估 · 研究工程
仅靠置信度会误导监督分流
模型置信度可能在平均意义上校准良好,却仍然无法决定哪些智能体行动值得有限的人类审查。
仅靠平均校准无法完成审查分流
一个校准良好的模型仍可能是糟糕的分流系统。校准问的是声明置信度是否在平均意义上匹配准确率。监督分流问的是另一个问题:当审查时间稀缺时,哪些单个智能体决策应该由人来检查。
这个区别对智能体系统很重要,因为监督是一种干预。审查者需要的信号,是能指向人类注意力可能改变结果的决策。
把监督建模为预算分配
Safe MarketUniverses 将监督转化为带预算的分配问题。每个回合包含连续的智能体决策、固定的人类审查预算,以及一个事后最优 oracle。该 oracle 在看到结果后用同样预算做最优分配。基准用相对这个 oracle 的损失来评分审查规则。
这个基准会把模型自信从“听起来可信”的代理指标中剔除,并奖励那些把注意力导向审查能够改变结果之处的信号。置信度分数可以在总体上表现良好,同时错过那些审查本可避免损失的具体决策。
置信度分流接近随机
预注册置信度规则在 120 个回合中表现接近随机。一个简单的证据完整性规则在预注册评分方案下表现更好。即便如此,该结果有保留条件:公开仓库显示这一优势很脆弱,在等权评分下可能翻转。
因此,基准给出更窄的结论:仅靠平均校准缺乏分配有限人类审查预算所需的操作性证据。
监督基准的设计标准
用于指导监督的基准应该评价监督决策本身。这意味着要问:
- 审查者试图捕捉哪种失效模式。
- 什么证据会让这种失效可见。
- 评分规则是否匹配机构决策。
- 当审查预算固定时发生什么变化。
- 哪些保留条件仍然必须与头部数字同时保留。
监督基准应该奖励那些把稀缺审查指向可被干预改变结果的信号。