- Prova
- Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
- Evidência
- Repositório público reproduzível
- Limite
- Evidência de piloto; falhas raras exigem amostras maiores.
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
- Prova
- 120 episódios; perda por confiança 0.176 contra acaso 0.191
- Evidência
- Banco público de avaliação reproduzível
- Limite
- O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
- Prova
- 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
- Evidência
- Banco público de avaliação
- Limite
- Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
- Prova
- ROC AUC 0.757 em mais de 185,000 projetos reservados para teste
- Evidência
- Repositório público de análise
- Limite
- O modelo serve como ajuda de triagem; um sistema de decisão de financiamento exigiria validação adicional.
Modelo que identifica pedidos DonorsChoose com maior risco de ficar sem financiamento, para direcionar atenção limitada de revisores a escolas com menos recursos. A auditoria de equidade reporta taxas de erro desiguais por nível de pobreza escolar.
- Prova
- Autorização, restrições, verificação e recibos para trabalho executado por agentes
- Evidência
- Sistema de fundador, afirmações públicas delimitadas
- Limite
- Visuais públicos explicam o modelo do sistema; afirmações de produto em produção exigem pacotes de prova separados.
NUDG é um projeto do CMU AI Venture Studio para controlar como agentes usam recursos reais. Ele substitui acesso amplo por proposta, autorização, execução, verificação e recibos.
- Prova
- Mais de $10B mapeados em 11 metrôs; Pittsburgh: $6.3B em 133 firmas
- Evidência
- Dados restritos, resumo agregado público
- Limite
- Mapas e tabelas por empresa permanecem privados; a página pública mostra agregados e evidência metodológica.
Projeto do Block Center que mapeia mais de dez bilhões de dólares em investimento público e privado em IA em onze economias metropolitanas. O corte de Pittsburgh cobre 6.3 bilhões de dólares e 133 firmas.