Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Projetos de avaliação IA com evidência

Repositórios públicos de avaliação, resumos de pesquisa com dados restritos e protótipos organizados por artefatos inspecionáveis.

Índice de projetos

Authority Calibration

Prova: Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
Evidência: Repositório público reproduzível
Limite: Evidência de piloto; falhas raras exigem amostras maiores.

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Safe MarketUniverses

Prova: 120 episódios; perda por confiança 0.176 contra acaso 0.191
Evidência: Banco público de avaliação reproduzível
Limite: O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

Avaliação RAG

Prova: 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
Evidência: Banco público de avaliação
Limite: Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

DonorsChoose ML

Prova: ROC AUC 0.757 em mais de 185,000 projetos reservados para teste
Evidência: Repositório público de análise
Limite: O modelo serve como ajuda de triagem; um sistema de decisão de financiamento exigiria validação adicional.

Modelo que identifica pedidos DonorsChoose com maior risco de ficar sem financiamento, para direcionar atenção limitada de revisores a escolas com menos recursos. A auditoria de equidade reporta taxas de erro desiguais por nível de pobreza escolar.

NUDG

Prova: Autorização, restrições, verificação e recibos para trabalho executado por agentes
Evidência: Sistema de fundador, afirmações públicas delimitadas
Limite: Visuais públicos explicam o modelo do sistema; afirmações de produto em produção exigem pacotes de prova separados.

NUDG é um projeto do CMU AI Venture Studio para controlar como agentes usam recursos reais. Ele substitui acesso amplo por proposta, autorização, execução, verificação e recibos.

Mapeamento IA

Prova: Mais de $10B mapeados em 11 metrôs; Pittsburgh: $6.3B em 133 firmas
Evidência: Dados restritos, resumo agregado público
Limite: Mapas e tabelas por empresa permanecem privados; a página pública mostra agregados e evidência metodológica.

Projeto do Block Center que mapeia mais de dez bilhões de dólares em investimento público e privado em IA em onze economias metropolitanas. O corte de Pittsburgh cobre 6.3 bilhões de dólares e 133 firmas.

Simulação laboral IA

Prova: 14.3% contra 3.6% de desemprego de pico sob regimes pareados
Evidência: Repositório público de simulação
Limite: Demonstração de mecanismo em um pequeno mercado simulado, fora do escopo de previsão macroeconômica.

Modelo NetLogo baseado em agentes de um pequeno mercado de trabalho se ajustando à automação com IA. Com trabalhadores, geografia e semente idênticos, o desemprego de pico chega a 14.3% sob política movida por tecnologia contra 3.6% sob política centrada em pessoas.

Heard.now

Prova: Amostra sintética pública com 7/7 verificações de privacidade e integridade
Evidência: Piloto privado, artefato sintético público
Limite: Visuais públicos usam texto sintético para proteger mensagens comunitárias.

Piloto de escuta cívica com o professor Jordan Usdan do Heinz College que mantém contribuições brutas privadas e publica extratos verificados para privacidade. A amostra sintética pública demonstra uma rota de verificação 7/7.

Event Compass

Prova: Claude vision extrai cartões de cartazes; exportação estática sem backend roda com quadro de amostra
Evidência: Demo estática ao vivo
Limite: A demo verifica o fluxo de extração no quadro de amostra; cobertura ao vivo do campus fica fora do escopo.

Protótipo que transforma uma foto de uma parede de cartazes do campus em listagens estruturadas e personalizadas. Claude vision extrai uma ficha por cartaz, e um classificador determinístico no navegador ordena resultados.

DemFlex ERCOT

Prova: Modelo de fluxo de caixa hora a hora com busca de portfólios de termostato, solar e bateria
Evidência: Artefato de projeto final por solicitação
Limite: O artefato público mostra o fluxo funcional; materiais completos do projeto permanecem privados.

Ferramenta Streamlit de planejamento de resposta à demanda para ERCOT. Ela compara termostatos, solar e baterias hora a hora por análise custo-benefício de fluxo de caixa.

Anomalias de cibersegurança

Prova: Relatório do curso: Isolation Forests e UMAP sobre mais de 8M eventos de segurança em nível kernel
Evidência: Trabalho de curso, relatório por solicitação
Limite: Materiais detalhados disponíveis por solicitação; a página pública usa um cartão compacto de evidência.

Trabalho de curso na Carnegie Mellon usando Isolation Forests e UMAP no conjunto de dados BETH de eventos de segurança em nível kernel. O relatório do curso registra 95% de acurácia; materiais detalhados estão disponíveis por solicitação.