Pablo Zavala · AI 安全评估 · 研究工程

面向可行动 AI 智能体的可复现评估。

我设计可复现的评估工具链，覆盖智能体权限、监督分流、评估器有效性与 RAG 根据性。公开仓库可从版本化工件重新生成核心数字。

精选工作

Authority Calibration

证据: 公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱
证据: 公开可复现仓库
边界: 试点规模证据；罕见失败仍需更大样本。

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限：既在授权边界内行动，也能使用自己确实拥有的权限。

Safe MarketUniverses

证据: 120 回合；置信度相对损失 0.176 vs 随机 0.191
证据: 公开可复现基准
边界: 该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。

在一个 120 回合的监督分配基准中，基于置信度的相对损失为 0.176，而随机分配为 0.191；差距太小，无法作为可靠的监督分流信号。

RAG 评估

证据: 查询重写和重排序后上下文精度 86.6%；918 个查询的完整划分上精确匹配下降
证据: 公开评估工具链
边界: 根据性提升，同时确定性精确匹配下降；结果是一个权衡。

一个评估工具链，在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度，但精确匹配下降。

DonorsChoose ML

证据: 185,000+ 个留出测试课堂项目上 ROC AUC 0.757
证据: 公开分析仓库
边界: 该模型是政策分流辅助；若作为资助决策系统部署，需要额外验证。

一个模型，用于识别最可能无法获得资助的 DonorsChoose 课堂项目，使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。

NUDG

证据: 智能体执行工作的授权、约束、验证和收据
证据: 创始人系统，公开声明有边界
边界: 公开视觉材料解释系统模型；生产中的产品声明需要单独证明包。

NUDG 是 CMU AI Venture Studio 项目，用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。

AI 投资地图

证据: 11 个都市区绘制 $10B+ 投资；Pittsburgh 覆盖 133 家企业、$6.3B
证据: 受限数据，公开聚合摘要
边界: 企业级记录和地图保持私有；公开页面展示聚合结果与方法证据。

Block Center 项目，绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。

证据标准

测量具体失效模式

权限越界、监督分流差、根据性弱和不均衡干预错误，都会在评分之前被明确命名。

为声明选择合适评估器

代码检查、模型评判指标、可读审计和确定性基线会与评估任务匹配。

结果与边界一起报告

零结果、评估器错误、私有数据限制和脆弱基线与头部数字并列出现。