Pablo Zavala · AI 安全评估 · 研究工程

面向可行动 AI 智能体的可复现评估。

我设计可复现的评估工具链,覆盖智能体权限、监督分流、评估器有效性与 RAG 根据性。公开仓库可从版本化工件重新生成核心数字。

精选工作

Authority Calibration

证据
公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱
证据
公开可复现仓库
边界
试点规模证据;罕见失败仍需更大样本。

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。

Safe MarketUniverses

证据
120 回合;置信度相对损失 0.176 vs 随机 0.191
证据
公开可复现基准
边界
该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。

RAG 评估

证据
查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降
证据
公开评估工具链
边界
根据性提升,同时确定性精确匹配下降;结果是一个权衡。

一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。

DonorsChoose ML

证据
185,000+ 个留出测试课堂项目上 ROC AUC 0.757
证据
公开分析仓库
边界
该模型是政策分流辅助;若作为资助决策系统部署,需要额外验证。

一个模型,用于识别最可能无法获得资助的 DonorsChoose 课堂项目,使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。

NUDG

证据
智能体执行工作的授权、约束、验证和收据
证据
创始人系统,公开声明有边界
边界
公开视觉材料解释系统模型;生产中的产品声明需要单独证明包。

NUDG 是 CMU AI Venture Studio 项目,用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。

AI 投资地图

证据
11 个都市区绘制 $10B+ 投资;Pittsburgh 覆盖 133 家企业、$6.3B
证据
受限数据,公开聚合摘要
边界
企业级记录和地图保持私有;公开页面展示聚合结果与方法证据。

Block Center 项目,绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。

证据标准

测量具体失效模式

权限越界、监督分流差、根据性弱和不均衡干预错误,都会在评分之前被明确命名。

为声明选择合适评估器

代码检查、模型评判指标、可读审计和确定性基线会与评估任务匹配。

结果与边界一起报告

零结果、评估器错误、私有数据限制和脆弱基线与头部数字并列出现。