Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Avaliações reproduzíveis para agentes de IA capazes de agir.

Desenho bancos de prova reproduzíveis para autoridade de agentes, triagem de supervisão, validade de avaliadores e ancoragem RAG. Repositórios públicos regeneram os números principais a partir de artefatos versionados.

Trabalho selecionado

Authority Calibration

Prova: Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
Evidência: Repositório público reproduzível
Limite: Evidência de piloto; falhas raras exigem amostras maiores.

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Safe MarketUniverses

Prova: 120 episódios; perda por confiança 0.176 contra acaso 0.191
Evidência: Banco público de avaliação reproduzível
Limite: O banco testa alocação em um ambiente financeiro compacto; outros contextos exigem validação separada.

Em um banco de avaliação de 120 episódios para alocar supervisão, a alocação por confiança chegou a perda 0.176 contra 0.191 de alocação aleatória, diferença pequena demais para servir como sinal de triagem.

Avaliação RAG

Prova: 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
Evidência: Banco público de avaliação
Limite: Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

DonorsChoose ML

Prova: ROC AUC 0.757 em mais de 185,000 projetos reservados para teste
Evidência: Repositório público de análise
Limite: O modelo serve como ajuda de triagem; um sistema de decisão de financiamento exigiria validação adicional.

Modelo que identifica pedidos DonorsChoose com maior risco de ficar sem financiamento, para direcionar atenção limitada de revisores a escolas com menos recursos. A auditoria de equidade reporta taxas de erro desiguais por nível de pobreza escolar.

NUDG

Prova: Autorização, restrições, verificação e recibos para trabalho executado por agentes
Evidência: Sistema de fundador, afirmações públicas delimitadas
Limite: Visuais públicos explicam o modelo do sistema; afirmações de produto em produção exigem pacotes de prova separados.

NUDG é um projeto do CMU AI Venture Studio para controlar como agentes usam recursos reais. Ele substitui acesso amplo por proposta, autorização, execução, verificação e recibos.

Mapeamento IA

Prova: Mais de $10B mapeados em 11 metrôs; Pittsburgh: $6.3B em 133 firmas
Evidência: Dados restritos, resumo agregado público
Limite: Mapas e tabelas por empresa permanecem privados; a página pública mostra agregados e evidência metodológica.

Projeto do Block Center que mapeia mais de dez bilhões de dólares em investimento público e privado em IA em onze economias metropolitanas. O corte de Pittsburgh cobre 6.3 bilhões de dólares e 133 firmas.

Padrão de evidência

Medir um modo de falha concreto

Excesso de autoridade, triagem fraca de supervisão, ancoragem fraca e erros desiguais de intervenção são nomeados antes de serem pontuados.

Usar o avaliador certo para a afirmação

Verificações de código, métricas julgadas por modelos, auditorias legíveis e linhas de base determinísticas são alinhadas à tarefa de avaliação.

Reportar limites junto ao resultado

Nulos, erros de avaliador, limites de dados privados e linhas de base frágeis aparecem ao lado dos números principais.