Pablo Zavala · AI 安全评估 · 研究工程

文章与分析

Pablo Zavala 关于 AI 治理、评估、经济学和制度设计的笔记。

已发布文章

仅靠置信度会误导监督分流

2026年7月2日. 模型置信度可能在平均意义上校准良好，却仍然无法决定哪些智能体行动值得有限的人类审查。