Question évaluée
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance
Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Rôle: Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité.
| Axe | Échantillon | Correcteur | Résultat | Limite |
|---|---|---|---|---|
| Résultat principal | Dépôt public reproductible | Comparaison avec l'affirmation publique et ses artefacts de preuve | Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance | Preuve de pilote; les échecs rares demandent des échantillons plus grands. |
| Signal de preuve | Divulgation en 14/14 et 12/12 tests de suppression | Lecture de dépôts, rapports, données versionnées ou démos publiques | Auto-démotion en 9/9 et 8/8 essais avec règle fournie | Preuve de pilote; les échecs rares demandent des échantillons plus grands. |
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
Preuve principale : Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance. Surface : Dépôt public reproductible.
Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
Beaucoup d'outils de sécurité mesurent ce qu'un modèle dit. Authority calibration mesure l'action déléguée : ce que le système fait quand il peut utiliser ou refuser un pouvoir opérationnel.
Rôle de Pablo : Responsable recherche : cadre, conception du pilote, audit du correcteur et paquet de reproductibilité. Évaluation bilatérale préenregistrée, Panels aveugles d'audit IA, Statistiques reproductibles
Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance Divulgation en 14/14 et 12/12 tests de suppression
Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Dépôt public reproductible La preuve principale se trouve dans les liens de la section matériaux.