- Prova
- Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
- Evidência
- Repositório público reproduzível
- Limite
- Evidência de piloto; falhas raras exigem amostras maiores.
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
- Prova
- 120 episódios; perda por confiança 0.176 contra acaso 0.191
- Evidência
- Banco público de avaliação reproduzível
- Limite
- O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.
Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.
- Prova
- 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
- Evidência
- Banco público de avaliação
- Limite
- Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
- Prova
- ROC AUC 0.757 em mais de 185,000 projetos reservados para teste
- Evidência
- Repositório público de análise
- Limite
- O modelo serve como ajuda de triagem; um sistema de decisão de financiamento exigiria validação adicional.
Modelo que identifica pedidos DonorsChoose com maior risco de ficar sem financiamento, para direcionar atenção limitada de revisores a escolas com menos recursos. A auditoria de equidade reporta taxas de erro desiguais por nível de pobreza escolar.
- Prova
- Autorização, restrições, verificação e recibos para trabalho executado por agentes
- Evidência
- Sistema de fundador, afirmações públicas delimitadas
- Limite
- Visuais públicos explicam o modelo do sistema; afirmações de produto em produção exigem pacotes de prova separados.
NUDG é um projeto do CMU AI Venture Studio para controlar como agentes usam recursos reais. Ele substitui acesso amplo por proposta, autorização, execução, verificação e recibos.
- Prova
- Mais de $10B mapeados em 11 metrôs; Pittsburgh: $6.3B em 133 firmas
- Evidência
- Dados restritos, resumo agregado público
- Limite
- Mapas e tabelas por empresa permanecem privados; a página pública mostra agregados e evidência metodológica.
Projeto do Block Center que mapeia mais de dez bilhões de dólares em investimento público e privado em IA em onze economias metropolitanas. O corte de Pittsburgh cobre 6.3 bilhões de dólares e 133 firmas.
- Prova
- 14.3% contra 3.6% de desemprego de pico sob regimes pareados
- Evidência
- Repositório público de simulação
- Limite
- Demonstração de mecanismo em um pequeno mercado simulado, fora do escopo de previsão macroeconômica.
Modelo NetLogo baseado em agentes de um pequeno mercado de trabalho se ajustando à automação com IA. Com trabalhadores, geografia e semente idênticos, o desemprego de pico chega a 14.3% sob política movida por tecnologia contra 3.6% sob política centrada em pessoas.
- Prova
- Amostra sintética pública com 7/7 verificações de privacidade e integridade
- Evidência
- Piloto privado, artefato sintético público
- Limite
- Visuais públicos usam texto sintético para proteger mensagens comunitárias.
Piloto de escuta cívica com o professor Jordan Usdan do Heinz College que mantém contribuições brutas privadas e publica extratos verificados para privacidade. A amostra sintética pública demonstra uma rota de verificação 7/7.
- Prova
- Claude vision extrai cartões de cartazes; exportação estática sem backend roda com quadro de amostra
- Evidência
- Demo estática ao vivo
- Limite
- A demo verifica o fluxo de extração no quadro de amostra; cobertura ao vivo do campus fica fora do escopo.
Protótipo que transforma uma foto de uma parede de cartazes do campus em listagens estruturadas e personalizadas. Claude vision extrai uma ficha por cartaz, e um classificador determinístico no navegador ordena resultados.
- Prova
- Modelo de fluxo de caixa hora a hora com busca de portfólios de termostato, solar e bateria
- Evidência
- Artefato de projeto final por solicitação
- Limite
- O artefato público mostra o fluxo funcional; materiais completos do projeto permanecem privados.
Ferramenta Streamlit de planejamento de resposta à demanda para ERCOT. Ela compara termostatos, solar e baterias hora a hora por análise custo-benefício de fluxo de caixa.
- Prova
- Relatório do curso: Isolation Forests e UMAP sobre mais de 8M eventos de segurança em nível kernel
- Evidência
- Trabalho de curso, relatório por solicitação
- Limite
- Materiais detalhados disponíveis por solicitação; a página pública usa um cartão compacto de evidência.
Trabalho de curso na Carnegie Mellon usando Isolation Forests e UMAP no conjunto de dados BETH de eventos de segurança em nível kernel. O relatório do curso registra 95% de acurácia; materiais detalhados estão disponíveis por solicitação.