评估问题
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
Pablo Zavala · AI 安全评估 · 研究工程
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
120 回合;置信度相对损失 0.176 vs 随机 0.191
该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。
角色: 基准作者:回合设计、相对损失指标、分析和公开证据包。
| 维度 | 样本 | 评估器 | 结果 | 边界 |
|---|---|---|---|---|
| 主要结果 | 公开可复现基准 | 将公开声明与其证明工件进行对照 | 120 回合;置信度相对损失 0.176 vs 随机 0.191 | 该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。 |
| 证据信号 | 120 个回合,证据完全版本化且可重新生成 | 阅读仓库、报告、版本化数据或公开演示 | 模型输出的置信度将稀缺审查分配得接近随机 | 该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。 |
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
主要证据: 120 回合;置信度相对损失 0.176 vs 随机 0.191. 证据表面: 公开可复现基准.
该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。
在一个 120 回合的监督分配基准中,基于置信度的相对损失为 0.176,而随机分配为 0.191;差距太小,无法作为可靠的监督分流信号。
Safe MarketUniverses 测试如何在连续智能体决策之间分配固定的人类审查预算。每条规则都以相对损失评分,对照一个使用同样预算的事后最优 oracle。
Pablo 的角色: 基准作者:回合设计、相对损失指标、分析和公开证据包。 相对事后最优 oracle 的监督分配损失, 预注册, 智能体评估工具链
120 回合;置信度相对损失 0.176 vs 随机 0.191 120 个回合,证据完全版本化且可重新生成
该基准测试紧凑金融风格环境中的分配;更广泛监督场景需要单独验证。
公开可复现基准 主要证据位于材料区的链接中。