Pablo Zavala · AI 安全评估 · 研究工程

有证据支撑的 AI 评估项目

公开评估仓库、受限数据研究摘要与产品原型,按可检查工件和测量边界组织。

项目索引

Authority Calibration

证据
公开权限使用试点:14/14 和 12/12 个抑制测试中完成披露;9/9 和 8/8 个给定规则试验中自我降级;0 个匹配 firebreak 反转;独立 Codex 测试发现 6/19 次 assurance 削弱
证据
公开可复现仓库
边界
试点规模证据;罕见失败仍需更大样本。

AI 智能体越来越多地运行流程、分配资源并协调其他智能体。这个项目测试它们能否正确使用委托权限:既在授权边界内行动,也能使用自己确实拥有的权限。

Safe MarketUniverses

证据
120 回合;置信度相对损失 0.176 vs 随机 0.191
证据
公开可复现基准
边界
该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。

RAG 评估

证据
查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降
证据
公开评估工具链
边界
根据性提升,同时确定性精确匹配下降;结果是一个权衡。

一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。

DonorsChoose ML

证据
185,000+ 个留出测试课堂项目上 ROC AUC 0.757
证据
公开分析仓库
边界
该模型是政策分流辅助;若作为资助决策系统部署,需要额外验证。

一个模型,用于识别最可能无法获得资助的 DonorsChoose 课堂项目,使有限审查注意力优先触达资源不足学校。公平性审计将不同学校贫困水平上的错误率差异纳入部署分析。

NUDG

证据
智能体执行工作的授权、约束、验证和收据
证据
创始人系统,公开声明有边界
边界
公开视觉材料解释系统模型;生产中的产品声明需要单独证明包。

NUDG 是 CMU AI Venture Studio 项目,用来控制智能体如何使用真实资源。它用提案、授权、执行、验证和收据分层替代宽泛访问权限。

AI 投资地图

证据
11 个都市区绘制 $10B+ 投资;Pittsburgh 覆盖 133 家企业、$6.3B
证据
受限数据,公开聚合摘要
边界
企业级记录和地图保持私有;公开页面展示聚合结果与方法证据。

Block Center 项目,绘制十一座都市经济体中超过一百亿美元的公共与私人 AI 投资。Pittsburgh 切片覆盖 133 家企业、63 亿美元投资。

AI 劳动力仿真

证据
配对政策下峰值失业率 14.3% vs 3.6%
证据
公开仿真仓库
边界
小型模拟劳动力市场中的机制演示,不作为宏观预测。

一个 NetLogo 基于智能体的模型,模拟小型劳动力市场如何适应 AI 自动化。在工人、地理结构和随机种子相同的情况下,技术驱动政策下峰值失业率为 14.3%,以人为本政策下为 3.6%。

Heard.now

证据
合成公开样本通过 7/7 隐私与完整性检查
证据
私有试点,合成公开工件
边界
公开视觉材料使用合成文本,使社区消息保持私有。

与 Heinz College Jordan Usdan 教授合作的公民聆听试点,将原始输入私下保存,并发布通过隐私检查的摘录。公开合成样本展示 7/7 验证路径,同时保护社区消息。

Event Compass

证据
Claude vision 提取海报卡片;无后台静态导出使用样本板运行
证据
在线静态演示
边界
演示验证样本板抽取流程;实时校园覆盖不在范围内。

一个原型,将校园海报墙照片转成结构化、个性化清单。Claude vision 为每张海报提取记录,浏览器内的确定性排序器根据兴趣排序结果。

DemFlex ERCOT

证据
逐小时现金流模型,搜索恒温器、太阳能和电池组合
证据
按请求提供的综合项目工件
边界
公开工件展示功能流程;完整综合项目材料保持私有。

用于 ERCOT 需求响应的 Streamlit 规划工具。它通过逐小时成本收益现金流分析比较恒温器、太阳能和电池组合。

网络安全异常

证据
课程报告:Isolation Forests 和 UMAP 覆盖 8M+ 内核级安全事件
证据
课程项目,按请求提供报告
边界
详细材料可按请求提供;公开页面使用紧凑证据卡。

Carnegie Mellon 课程项目,在 BETH 内核级安全事件数据集上使用 Isolation Forests 和 UMAP。课程报告记录 95% 准确率;详细验证材料可按请求提供。