- Preuve
- Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance
- Preuve
- Dépôt public reproductible
- Limite
- Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
- Preuve
- 120 épisodes; perte par confiance 0.176 contre hasard 0.191
- Preuve
- Banc d'évaluation public reproductible
- Limite
- Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.
Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.
- Preuve
- 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes
- Preuve
- Banc d'essai public d'évaluation
- Limite
- L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
- Preuve
- ROC AUC 0.757 sur plus de 185,000 projets réservés au test
- Preuve
- Dépôt public d'analyse
- Limite
- Le modèle sert d'aide au triage; un système de décision de financement exigerait validation supplémentaire.
Modèle qui identifie les demandes DonorsChoose les plus à risque de rester sans financement, afin de diriger l'attention limitée des réviseurs vers les écoles sous-dotées. L'audit d'équité reporte des taux d'erreur inégaux par niveau de pauvreté scolaire.
- Preuve
- Autorisation, contraintes, vérification et reçus pour le travail exécuté par agents
- Preuve
- Système de fondateur, affirmations publiques bornées
- Limite
- Les visuels publics expliquent le modèle système; les affirmations de produit en production exigent des paquets de preuve séparés.
NUDG est un projet du CMU AI Venture Studio pour contrôler l'usage de ressources réelles par les agents. Il remplace l'accès large par proposition, autorisation, exécution, vérification et reçus.
- Preuve
- Plus de $10B cartographiés dans 11 métros; Pittsburgh : $6.3B dans 133 firmes
- Preuve
- Données restreintes, résumé agrégé public
- Limite
- Les cartes et tables par entreprise restent privées; la page publique montre agrégats et preuve méthodologique.
Projet du Block Center cartographiant plus de dix milliards de dollars d'investissement public et privé en IA dans onze économies métropolitaines. La tranche Pittsburgh couvre 6.3 milliards de dollars et 133 firmes.