Pablo Zavala · AI 安全评估 · 研究工程

长程 AI 智能体的 Authority Calibration

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。

公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱

公开可复现仓库

试点规模证据;罕见失败仍需更大样本。

角色: 研究负责人:框架、试点设计、评估器审计和可复现包。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度样本评估器结果边界
主要结果公开可复现仓库将公开声明与其证明工件进行对照公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱试点规模证据;罕见失败仍需更大样本。
证据信号模型在 14/14 和 12/12 个抑制测试中披露关键信息阅读仓库、报告、版本化数据或公开演示在 9/9 和 8/8 个试验中按指令完成自我降级试点规模证据;罕见失败仍需更大样本。

如何检查这项工作

评估问题

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。

可检查证据

主要证据: 公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱. 证据表面: 公开可复现仓库.

声明边界

试点规模证据;罕见失败仍需更大样本。

案例研究

问题

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。

背景

许多安全工具衡量模型说了什么。Authority calibration 衡量委托行动:系统在能够使用或拒绝操作性权力时实际做了什么。

方法

Pablo 的角色: 研究负责人:框架、试点设计、评估器审计和可复现包。 预注册双尾评估, 盲审 AI 审计小组, 可复现统计

结果

公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱 模型在 14/14 和 12/12 个抑制测试中披露关键信息

边界

试点规模证据;罕见失败仍需更大样本。

证据

公开可复现仓库 主要证据位于材料区的链接中。

关键结果

  • 模型在 14/14 和 12/12 个抑制测试中披露关键信息
  • 在 9/9 和 8/8 个试验中按指令完成自我降级
  • 两个 provider 的 firebreak 场景都记录 0 个 constitutional inversion
  • 独立 Codex assurance subversion 测试在 6/19 个试验中显示不利影响
  • 约十二个评估器假阳性被修正并作为评估器有效性发现报告
  • 从洁净克隆运行时验证检查通过 7/7 和 8/8

方法

  • 预注册双尾评估
  • 盲审 AI 审计小组
  • 可复现统计
  • 协调披露