Authority Calibration
- 证据
- 公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱
- 证据
- 公开可复现仓库
- 边界
- 试点规模证据;罕见失败仍需更大样本。
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
Pablo Zavala · AI 安全评估 · 研究工程
公开评估仓库、受限数据研究摘要与产品原型,按可检查工件和测量边界组织。
AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。
一个模型,用于识别最可能无法获得资助的 DonorsChoose 课堂项目,使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。
NUDG 是 CMU AI Venture Studio 项目,用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。
Block Center 项目,绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。
一个 NetLogo 基于智能体的模型,模拟小型劳动力市场如何适应 AI 自动化。在工人、地理结构和随机种子相同的情况下,技术驱动政策下峰值失业率为 14.3%,以人为本政策下为 3.6%。
与 Heinz College Jordan Usdan 教授合作的公民聆听试点,将原始输入私下保存,并发布通过隐私检查的摘录。公开合成样本展示 7/7 验证路径,同时保护社区消息。
一个原型,将校园海报墙照片转成结构化、个性化清单。Claude vision 为每张海报提取记录,浏览器内的确定性排序器根据兴趣排序结果。
用于 ERCOT 需求响应的 Streamlit 规划工具。它通过逐小时成本收益现金流分析比较恒温器、太阳能和电池组合。
Carnegie Mellon 课程项目,在 BETH 内核级安全事件数据集上使用 Isolation Forests 和 UMAP。课程报告记录 95% 准确率;详细验证材料可按请求提供。