Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Projetos de avaliação IA com evidência

Repositórios públicos de avaliação, resumos de pesquisa com dados restritos e protótipos organizados por artefatos inspecionáveis.

Índice de projetos

Authority Calibration

Prova
Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
Evidência
Repositório público reproduzível
Limite
Evidência de piloto; falhas raras exigem amostras maiores.

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Safe MarketUniverses

Prova
120 episódios; perda por confiança 0.176 contra acaso 0.191
Evidência
Banco público de avaliação reproduzível
Limite
O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

Avaliação RAG

Prova
86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
Evidência
Banco público de avaliação
Limite
Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

DonorsChoose ML

Prova
ROC AUC 0.757 em mais de 185,000 projetos reservados para teste
Evidência
Repositório público de análise
Limite
O modelo serve como ajuda de triagem; um sistema de decisão de financiamento exigiria validação adicional.

Modelo que identifica pedidos DonorsChoose com maior risco de ficar sem financiamento, para direcionar atenção limitada de revisores a escolas com menos recursos. A auditoria de equidade reporta taxas de erro desiguais por nível de pobreza escolar.

NUDG

Prova
Autorização, restrições, verificação e recibos para trabalho executado por agentes
Evidência
Sistema de fundador, afirmações públicas delimitadas
Limite
Visuais públicos explicam o modelo do sistema; afirmações de produto em produção exigem pacotes de prova separados.

NUDG é um projeto do CMU AI Venture Studio para controlar como agentes usam recursos reais. Ele substitui acesso amplo por proposta, autorização, execução, verificação e recibos.

Mapeamento IA

Prova
Mais de $10B mapeados em 11 metrôs; Pittsburgh: $6.3B em 133 firmas
Evidência
Dados restritos, resumo agregado público
Limite
Mapas e tabelas por empresa permanecem privados; a página pública mostra agregados e evidência metodológica.

Projeto do Block Center que mapeia mais de dez bilhões de dólares em investimento público e privado em IA em onze economias metropolitanas. O corte de Pittsburgh cobre 6.3 bilhões de dólares e 133 firmas.

Simulação laboral IA

Prova
14.3% contra 3.6% de desemprego de pico sob regimes pareados
Evidência
Repositório público de simulação
Limite
Demonstração de mecanismo em um pequeno mercado simulado, fora do escopo de previsão macroeconômica.

Modelo NetLogo baseado em agentes de um pequeno mercado de trabalho se ajustando à automação com IA. Com trabalhadores, geografia e semente idênticos, o desemprego de pico chega a 14.3% sob política movida por tecnologia contra 3.6% sob política centrada em pessoas.

Heard.now

Prova
Amostra sintética pública com 7/7 verificações de privacidade e integridade
Evidência
Piloto privado, artefato sintético público
Limite
Visuais públicos usam texto sintético para proteger mensagens comunitárias.

Piloto de escuta cívica com o professor Jordan Usdan do Heinz College que mantém contribuições brutas privadas e publica extratos verificados para privacidade. A amostra sintética pública demonstra uma rota de verificação 7/7.

Event Compass

Prova
Claude vision extrai cartões de cartazes; exportação estática sem backend roda com quadro de amostra
Evidência
Demo estática ao vivo
Limite
A demo verifica o fluxo de extração no quadro de amostra; cobertura ao vivo do campus fica fora do escopo.

Protótipo que transforma uma foto de uma parede de cartazes do campus em listagens estruturadas e personalizadas. Claude vision extrai uma ficha por cartaz, e um classificador determinístico no navegador ordena resultados.

DemFlex ERCOT

Prova
Modelo de fluxo de caixa hora a hora com busca de portfólios de termostato, solar e bateria
Evidência
Artefato de projeto final por solicitação
Limite
O artefato público mostra o fluxo funcional; materiais completos do projeto permanecem privados.

Ferramenta Streamlit de planejamento de resposta à demanda para ERCOT. Ela compara termostatos, solar e baterias hora a hora por análise custo-benefício de fluxo de caixa.

Anomalias de cibersegurança

Prova
Relatório do curso: Isolation Forests e UMAP sobre mais de 8M eventos de segurança em nível kernel
Evidência
Trabalho de curso, relatório por solicitação
Limite
Materiais detalhados disponíveis por solicitação; a página pública usa um cartão compacto de evidência.

Trabalho de curso na Carnegie Mellon usando Isolation Forests e UMAP no conjunto de dados BETH de eventos de segurança em nível kernel. O relatório do curso registra 95% de acurácia; materiais detalhados estão disponíveis por solicitação.