Pablo Zavala · AI 安全评估 · 研究工程

Safe MarketUniverses：监督分配基准

在一个 120 回合的监督分配基准中，基于置信度的相对损失为 0.176，而随机分配为 0.191；差距太小，无法作为可靠的监督分流信号。

120 回合；置信度相对损失 0.176 vs 随机 0.191

公开可复现基准

该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。

角色: 基准作者：回合设计、相对损失指标、分析和公开证据包。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度	样本	评估器	结果	边界
主要结果	公开可复现基准	将公开声明与其证明工件进行对照	120 回合；置信度相对损失 0.176 vs 随机 0.191	该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。
证据信号	120 个回合，证据完全版本化且可重新生成	阅读仓库、报告、版本化数据或公开演示	模型输出的置信度将稀缺审查分配得接近随机	该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。

在一个 120 回合的监督分配基准中，基于置信度的相对损失为 0.176，而随机分配为 0.191；差距太小，无法作为可靠的监督分流信号。

主要证据: 120 回合；置信度相对损失 0.176 vs 随机 0.191. 证据表面: 公开可复现基准.

该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。

在一个 120 回合的监督分配基准中，基于置信度的相对损失为 0.176，而随机分配为 0.191；差距太小，无法作为可靠的监督分流信号。

Safe MarketUniverses 测试如何在连续智能体决策之间分配固定的人类审查预算。每条规则都以相对损失评分，对照一个使用同样预算的事后最优 oracle。

Pablo 的角色: 基准作者：回合设计、相对损失指标、分析和公开证据包。相对事后最优 oracle 的监督分配损失, 预注册, 智能体评估工具链

120 回合；置信度相对损失 0.176 vs 随机 0.191 120 个回合，证据完全版本化且可重新生成

该基准测试紧凑金融风格环境中的分配；更广泛监督场景需要单独验证。

公开可复现基准主要证据位于材料区的链接中。