Pablo Zavala · AI 安全评估 · 研究工程

有证据支撑的 AI 评估项目

公开评估仓库、受限数据研究摘要与产品原型，按可检查工件和测量边界组织。

项目索引

证据: 公开权限使用试点：14/14 和 12/12 个抑制测试中完成披露；9/9 和 8/8 个给定规则试验中自我降级；0 个匹配 firebreak 反转；独立 Codex 测试发现 6/19 次 assurance 削弱
证据: 公开可复现仓库
边界: 试点规模证据；罕见失败仍需更大样本。

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限：既在授权边界内行动，也能使用自己确实拥有的权限。

在一个 120 回合的监督分配基准中，基于置信度的相对损失为 0.176，而随机分配为 0.191；差距太小，无法作为可靠的监督分流信号。

一个评估工具链，在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度，但精确匹配下降。

一个模型，用于识别最可能无法获得资助的 DonorsChoose 课堂项目，使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。

NUDG 是 CMU AI Venture Studio 项目，用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。

Block Center 项目，绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。

一个 NetLogo 基于智能体的模型，模拟小型劳动力市场如何适应 AI 自动化。在工人、地理结构和随机种子相同的情况下，技术驱动政策下峰值失业率为 14.3%，以人为本政策下为 3.6%。

与 Heinz College Jordan Usdan 教授合作的公民聆听试点，将原始输入私下保存，并发布通过隐私检查的摘录。公开合成样本展示 7/7 验证路径，同时保护社区消息。

一个原型，将校园海报墙照片转成结构化、个性化清单。Claude vision 为每张海报提取记录，浏览器内的确定性排序器根据兴趣排序结果。

用于 ERCOT 需求响应的 Streamlit 规划工具。它通过逐小时成本收益现金流分析比较恒温器、太阳能和电池组合。

Carnegie Mellon 课程项目，在 BETH 内核级安全事件数据集上使用 Isolation Forests 和 UMAP。课程报告记录 95% 准确率；详细验证材料可按请求提供。