Pablo Zavala · AI 安全评估 · 研究工程

Safe MarketUniverses:监督分配基准

在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。

120 回合;置信度相对损失 0.176 vs 随机 0.191

公开可复现基准

该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

角色: 基准作者:回合设计、相对损失指标、分析和公开证据包。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度样本评估器结果边界
主要结果公开可复现基准将公开声明与其证明工件进行对照120 回合;置信度相对损失 0.176 vs 随机 0.191该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。
证据信号120 个回合,证据完全版本化且可重新生成阅读仓库、报告、版本化数据或公开演示模型输出的置信度将稀缺审查分配得接近随机该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

如何检查这项工作

评估问题

在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。

可检查证据

主要证据: 120 回合;置信度相对损失 0.176 vs 随机 0.191. 证据表面: 公开可复现基准.

声明边界

该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

案例研究

问题

在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。

背景

Safe MarketUniverses 测试如何在连续智能体决策之间分配固定的人类审查预算。每条规则都以相对损失评分,对照一个使用同样预算的事后最优 oracle。

方法

Pablo 的角色: 基准作者:回合设计、相对损失指标、分析和公开证据包。 相对事后最优 oracle 的监督分配损失, 预注册, 智能体评估工具链

结果

120 回合;置信度相对损失 0.176 vs 随机 0.191 120 个回合,证据完全版本化且可重新生成

边界

该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。

证据

公开可复现基准 主要证据位于材料区的链接中。

关键结果

  • 120 个回合,证据完全版本化且可重新生成
  • 模型输出的置信度将稀缺审查分配得接近随机
  • 简单证据完整性规则在预注册评分下表现更好,但仓库报告脆弱性保留条件
  • 预注册零结果被直接报告

方法

  • 相对事后最优 oracle 的监督分配损失
  • 预注册
  • 智能体评估工具链
  • 已提交且可再生成的证据