- Preuve
- Pilote public d'usage d'autorité : divulgation en 14/14 et 12/12 tests de suppression; auto-démotion en 9/9 et 8/8 essais; 0 inversion firebreak observée; test Codex séparé avec 6/19 affaiblissements d'assurance
- Preuve
- Dépôt public reproductible
- Limite
- Preuve de pilote; les échecs rares demandent des échantillons plus grands.
Les agents IA exécutent déjà des chaînes de travail, allouent des ressources et coordonnent d'autres agents. Ce projet évalue s'ils respectent l'autorité déléguée : agir dans le mandat et accepter les responsabilités valides.
- Preuve
- 120 épisodes; perte par confiance 0.176 contre hasard 0.191
- Preuve
- Banc d'évaluation public reproductible
- Limite
- Le banc teste l'allocation dans un environnement financier compact; d'autres contextes exigent validation séparée.
Dans un banc d'évaluation de 120 épisodes pour allouer la supervision, l'allocation par confiance atteint une perte 0.176 contre 0.191 pour une allocation aléatoire, un écart trop faible pour servir de signal de triage.
- Preuve
- 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes
- Preuve
- Banc d'essai public d'évaluation
- Limite
- L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
- Preuve
- ROC AUC 0.757 sur plus de 185,000 projets réservés au test
- Preuve
- Dépôt public d'analyse
- Limite
- Le modèle sert d'aide au triage; un système de décision de financement exigerait validation supplémentaire.
Modèle qui identifie les demandes DonorsChoose les plus à risque de rester sans financement, afin de diriger l'attention limitée des réviseurs vers les écoles sous-dotées. L'audit d'équité reporte des taux d'erreur inégaux par niveau de pauvreté scolaire.
- Preuve
- Autorisation, contraintes, vérification et reçus pour le travail exécuté par agents
- Preuve
- Système de fondateur, affirmations publiques bornées
- Limite
- Les visuels publics expliquent le modèle système; les affirmations de produit en production exigent des paquets de preuve séparés.
NUDG est un projet du CMU AI Venture Studio pour contrôler l'usage de ressources réelles par les agents. Il remplace l'accès large par proposition, autorisation, exécution, vérification et reçus.
- Preuve
- Plus de $10B cartographiés dans 11 métros; Pittsburgh : $6.3B dans 133 firmes
- Preuve
- Données restreintes, résumé agrégé public
- Limite
- Les cartes et tables par entreprise restent privées; la page publique montre agrégats et preuve méthodologique.
Projet du Block Center cartographiant plus de dix milliards de dollars d'investissement public et privé en IA dans onze économies métropolitaines. La tranche Pittsburgh couvre 6.3 milliards de dollars et 133 firmes.
- Preuve
- 14.3% contre 3.6% de chômage pic sous régimes appariés
- Preuve
- Dépôt public de simulation
- Limite
- Démonstration de mécanisme dans un petit marché simulé, hors prévision macroéconomique.
Modèle NetLogo par agents d'un petit marché du travail qui s'ajuste à l'automatisation IA. À travailleurs, géographie et graine identiques, le pic de chômage atteint 14.3% sous politique portée par la technologie contre 3.6% sous politique centrée sur les personnes.
- Preuve
- Échantillon synthétique public avec 7/7 contrôles de confidentialité et d'intégrité
- Preuve
- Pilote privé, artefact synthétique public
- Limite
- Les visuels publics utilisent du texte synthétique pour protéger les messages communautaires.
Pilote d'écoute civique avec le professeur Jordan Usdan de Heinz College, qui garde les contributions brutes privées et publie des extraits vérifiés pour la confidentialité. L'échantillon synthétique public montre une route de vérification 7/7.
- Preuve
- Claude vision extrait des cartes d'affiches; l'export statique sans backend fonctionne avec un tableau d'exemple
- Preuve
- Démo statique en direct
- Limite
- La démo vérifie le flux d'extraction sur un tableau d'exemple; la couverture en direct du campus reste hors périmètre.
Prototype qui transforme une photo de mur d'affiches du campus en listes structurées et personnalisées. Claude vision extrait une fiche par affiche, puis un classeur déterministe dans le navigateur ordonne les résultats.
- Preuve
- Modèle de flux de trésorerie heure par heure avec recherche de portefeuilles thermostat, solaire et batterie
- Preuve
- Artefact de projet de fin d'études sur demande
- Limite
- L'artefact public montre le flux fonctionnel; les matériaux complets du projet restent privés.
Outil Streamlit de planification de réponse à la demande pour ERCOT. Il compare thermostats, solaire et batteries heure par heure via analyse coût-bénéfice de flux de trésorerie.
- Preuve
- Rapport de cours : Isolation Forests et UMAP sur plus de 8M événements sécurité au niveau kernel
- Preuve
- Travail de cours, rapport sur demande
- Limite
- Matériaux détaillés disponibles sur demande; la page publique utilise une carte de preuve compacte.
Travail de cours à Carnegie Mellon utilisant Isolation Forests et UMAP sur le jeu de données BETH d'événements sécurité au niveau kernel. Le rapport de cours note 95% d'exactitude; les matériaux détaillés sont disponibles sur demande.