Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche
La confiance seule échoue au triage de supervision
Pourquoi une confiance de modèle peut être bien calibrée en moyenne et échouer quand il faut décider quelles actions d'agents méritent la revue humaine disponible.
La calibration moyenne échoue pour l'allocation de revue
Un modèle calibré peut rester un mauvais système de triage. La calibration demande si la confiance annoncée correspond à l'exactitude en moyenne. Le triage de supervision pose une question opérationnelle : quand le temps de revue est limité, quelles décisions individuelles d'agents une personne doit-elle inspecter ?
Cette distinction compte pour les systèmes agentiques parce que la supervision est une intervention. Le réviseur a besoin d'un signal qui pointe vers les décisions où l'attention humaine peut changer le résultat.
La supervision comme problème d'allocation
Safe MarketUniverses transforme la supervision en problème d'allocation avec budget. Chaque épisode contient des décisions séquentielles d'agents, un budget fixe de revue humaine et un oracle rétrospectif qui dépense le même budget de façon optimale après avoir observé les résultats. Le banc d'évaluation note les règles de revue par perte face à cet oracle.
Ce banc écarte l'auto-confiance du modèle comme indicateur de substitution pour la plausibilité et récompense les signaux qui orientent l'attention vers les décisions où la revue change le résultat. Un score de confiance peut bien se comporter en agrégé tout en manquant les décisions précises où la revue aurait évité une perte.
La confiance a orienté la revue près du hasard
La règle de confiance préenregistrée s'est comportée presque comme le hasard sur 120 épisodes. Une règle simple d'intégrité de preuve a mieux fonctionné sous la notation préenregistrée. Ce résultat garde pourtant des réserves : le dépôt public montre que l'avantage est fragile et peut s'inverser avec une notation à poids égaux.
Ainsi, le banc d'évaluation soutient une affirmation plus étroite : la calibration moyenne seule manque de preuve opérationnelle suffisante pour allouer un budget limité de revue humaine.
Standards de conception pour un banc de supervision
Un banc destiné à guider la supervision doit noter la décision de supervision elle-même. Cela implique de demander :
- Quel mode de défaillance le réviseur cherche à attraper.
- Quelle preuve aurait rendu cette défaillance visible.
- Si la règle de notation correspond à la décision institutionnelle.
- Ce qui change quand le budget de revue est fixe.
- Quelles réserves survivent à côté du chiffre principal.
Les bancs de supervision devraient récompenser les signaux qui dirigent la revue rare vers les décisions où l'intervention peut changer le résultat.