评估问题
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
Pablo Zavala · AI 安全评估 · 研究工程
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱
试点规模证据;罕见失败仍需更大样本。
角色: 研究负责人:框架、试点设计、评估器审计和可复现包。
| 维度 | 样本 | 评估器 | 结果 | 边界 |
|---|---|---|---|---|
| 主要结果 | 公开可复现仓库 | 将公开声明与其证明工件进行对照 | 公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱 | 试点规模证据;罕见失败仍需更大样本。 |
| 证据信号 | 模型在 14/14 和 12/12 个抑制测试中披露关键信息 | 阅读仓库、报告、版本化数据或公开演示 | 在 9/9 和 8/8 个试验中按指令完成自我降级 | 试点规模证据;罕见失败仍需更大样本。 |
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
主要证据: 公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱. 证据表面: 公开可复现仓库.
试点规模证据;罕见失败仍需更大样本。
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
许多安全工具衡量模型说了什么。Authority calibration 衡量委托行动:系统在能够使用或拒绝操作性权力时实际做了什么。
Pablo 的角色: 研究负责人:框架、试点设计、评估器审计和可复现包。 预注册双尾评估, 盲审 AI 审计小组, 可复现统计
公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱 模型在 14/14 和 12/12 个抑制测试中披露关键信息
试点规模证据;罕见失败仍需更大样本。
公开可复现仓库 主要证据位于材料区的链接中。