Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Évaluations reproductibles pour agents IA capables d'agir.

Je conçois des bancs d'essai reproductibles pour l'autorité d'agents, le triage de supervision, la validité des correcteurs et l'ancrage RAG. Les dépôts publics régénèrent les chiffres principaux depuis des artefacts versionnés.

Travail sélectionné

Authority Calibration

Preuve: Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance
Preuve: Dépôt public reproductible
Limite: Preuve de pilote; les échecs rares demandent des échantillons plus grands.

Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.

Safe MarketUniverses

Preuve: 120 épisodes; perte par confiance 0.176 contre hasard 0.191
Preuve: Banc d'évaluation public reproductible
Limite: Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.

Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.

Évaluation RAG

Preuve: 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes
Preuve: Banc d'essai public d'évaluation
Limite: L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.

DonorsChoose ML

Preuve: ROC AUC 0.757 sur plus de 185,000 projets réservés au test
Preuve: Dépôt public d'analyse
Limite: Le modèle sert d'aide au triage; un système de décision de financement exigerait validation supplémentaire.

Modèle qui identifie les demandes DonorsChoose les plus à risque de rester sans financement, afin de diriger l'attention limitée des réviseurs vers les écoles sous-dotées. L'audit d'équité reporte des taux d'erreur inégaux par niveau de pauvreté scolaire.

NUDG

Preuve: Autorisation, contraintes, vérification et reçus pour le travail exécuté par agents
Preuve: Système de fondateur, affirmations publiques bornées
Limite: Les visuels publics expliquent le modèle système; les affirmations de produit en production exigent des paquets de preuve séparés.

NUDG est un projet du CMU AI Venture Studio pour contrôler l'usage de ressources réelles par les agents. Il remplace l'accès large par proposition, autorisation, exécution, vérification et reçus.

Cartographie IA

Preuve: Plus de $10B cartographiés dans 11 métros; Pittsburgh : $6.3B dans 133 firmes
Preuve: Données restreintes, résumé agrégé public
Limite: Les cartes et tables par entreprise restent privées; la page publique montre agrégats et preuve méthodologique.

Projet du Block Center cartographiant plus de dix milliards de dollars d'investissement public et privé en IA dans onze économies métropolitaines. La tranche Pittsburgh couvre 6.3 milliards de dollars et 133 firmes.

Standard de preuve

Mesurer un mode de défaillance concret

Excès d'autorité, mauvais triage de supervision, ancrage faible et erreurs d'intervention inégales sont nommés avant d'être évalués.

Choisir le correcteur adapté à l'affirmation

Contrôles de code, métriques jugées par modèles, audits lisibles et lignes de base déterministes sont alignés avec la tâche d'évaluation.

Reporter les limites avec le résultat

Résultats nuls, erreurs de correcteur, limites de données privées et lignes de base fragiles apparaissent avec les chiffres principaux.