Authority Calibration
- 证据
- 公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱
- 证据
- 公开可复现仓库
- 边界
- 试点规模证据;罕见失败仍需更大样本。
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
Pablo Zavala · AI 安全评估 · 研究工程
我设计可复现的评估工具链,覆盖智能体权限、监督分流、评估器有效性与 RAG 根据性。公开仓库可从版本化工件重新生成核心数字。
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。
一个模型,用于识别最可能无法获得资助的 DonorsChoose 课堂项目,使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。
NUDG 是 CMU AI Venture Studio 项目,用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。
Block Center 项目,绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。
权限越界、监督分流差、根据性弱和不均衡干预错误,都会在评分之前被明确命名。
代码检查、模型评判指标、可读审计和确定性基线会与评估任务匹配。
零结果、评估器错误、私有数据限制和脆弱基线与头部数字并列出现。