Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Authority Calibration chez les agents IA long-horizon

Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.

Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance

Dépôt public reproductible

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Rôle: Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
Axe	Échantillon	Correcteur	Résultat	Limite
Résultat principal	Dépôt public reproductible	Comparaison avec l'affirmation publique et ses artefacts de preuve	Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance	Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Signal de preuve	Divulgation en 14/14 et 12/12 tests de suppression	Lecture de dépôts, rapports, données versionnées ou démos publiques	Auto-démotion en 9/9 et 8/8 essais avec règle fournie	Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Comment inspecter ce travail

Question évaluée

Preuve inspectable

Preuve principale : Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance. Surface : Dépôt public reproductible.

Limite de l'affirmation

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Étude de cas

Problème

Contexte

Beaucoup d'outils de sécurité mesurent ce qu'un modèle dit. Authority calibration mesure l'action déléguée : ce que le système fait quand il peut utiliser ou refuser un pouvoir opérationnel.

Méthode

Rôle de Pablo : Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité. Évaluation bilatérale préenregistrée, Panels aveugles d'audit IA, Statistiques reproductibles

Résultat

Limite

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Preuve

Dépôt public reproductible La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

Divulgation en 14/14 et 12/12 tests de suppression
Auto-démotion en 9/9 et 8/8 essais avec règle fournie
Zéro inversion constitutionnelle dans les scénarios firebreak
Test Codex séparé montrant un effet adverse en 6/19 essais
Faux positifs du correcteur corrigés et reportés comme résultat de validité
Contrôles de vérification 7/7 et 8/8 depuis un clone propre

Méthodes

Évaluation bilatérale préenregistrée
Panels aveugles d'audit IA
Statistiques reproductibles
Divulgation coordonnée