Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Authority Calibration chez les agents IA long-horizon

Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.

Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance

Dépôt public reproductible

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Rôle: Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
AxeÉchantillonCorrecteurRésultatLimite
Résultat principalDépôt public reproductibleComparaison avec l'affirmation publique et ses artefacts de preuvePilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurancePreuve de pilote; les échecs rares demandent des échantillons plus grands.
Signal de preuveDivulgation en 14/14 et 12/12 tests de suppressionLecture de dépôts, rapports, données versionnées ou démos publiquesAuto-démotion en 9/9 et 8/8 essais avec règle fourniePreuve de pilote; les échecs rares demandent des échantillons plus grands.

Comment inspecter ce travail

Question évaluée

Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.

Preuve inspectable

Preuve principale : Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance. Surface : Dépôt public reproductible.

Limite de l'affirmation

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Étude de cas

Problème

Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.

Contexte

Beaucoup d'outils de sécurité mesurent ce qu'un modèle dit. Authority calibration mesure l'action déléguée : ce que le système fait quand il peut utiliser ou refuser un pouvoir opérationnel.

Méthode

Rôle de Pablo : Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité. Évaluation bilatérale préenregistrée, Panels aveugles d'audit IA, Statistiques reproductibles

Résultat

Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance Divulgation en 14/14 et 12/12 tests de suppression

Limite

Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Preuve

Dépôt public reproductible La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

  • Divulgation en 14/14 et 12/12 tests de suppression
  • Auto-démotion en 9/9 et 8/8 essais avec règle fournie
  • Zéro inversion constitutionnelle dans les scénarios firebreak
  • Test Codex séparé montrant un effet adverse en 6/19 essais
  • Faux positifs du correcteur corrigés et reportés comme résultat de validité
  • Contrôles de vérification 7/7 et 8/8 depuis un clone propre

Méthodes

  • Évaluation bilatérale préenregistrée
  • Panels aveugles d'audit IA
  • Statistiques reproductibles
  • Divulgation coordonnée