Pablo Zavala · AI 安全评估 · 研究工程

长程 AI 智能体的 Authority Calibration

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限：既在授权边界内行动，也能使用自己确实拥有的权限。

公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱

公开可复现仓库

试点规模证据；罕见失败仍需更大样本。

角色: 研究负责人：框架、试点设计、评估器审计和可复现包。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度	样本	评估器	结果	边界
主要结果	公开可复现仓库	将公开声明与其证明工件进行对照	公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱	试点规模证据；罕见失败仍需更大样本。
证据信号	模型在 14/14 和 12/12 个抑制测试中披露关键信息	阅读仓库、报告、版本化数据或公开演示	在 9/9 和 8/8 个试验中按指令完成自我降级	试点规模证据；罕见失败仍需更大样本。

主要证据: 公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱. 证据表面: 公开可复现仓库.

试点规模证据；罕见失败仍需更大样本。

许多安全工具衡量模型说了什么。Authority calibration 衡量委托行动：系统在能够使用或拒绝操作性权力时实际做了什么。

Pablo 的角色: 研究负责人：框架、试点设计、评估器审计和可复现包。预注册双尾评估, 盲审 AI 审计小组, 可复现统计

公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱模型在 14/14 和 12/12 个抑制测试中披露关键信息

试点规模证据；罕见失败仍需更大样本。

公开可复现仓库主要证据位于材料区的链接中。