Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Authority Calibration em agentes de IA long-horizon

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance

Repositório público reproduzível

Evidência de piloto; falhas raras exigem amostras maiores.

Papel: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
Eixo	Amostra	Avaliador	Resultado	Limite
Resultado principal	Repositório público reproduzível	Comparação contra a afirmação pública e seus artefatos de prova	Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance	Evidência de piloto; falhas raras exigem amostras maiores.
Sinal de evidência	Divulgação em 14/14 e 12/12 testes de supressão	Leitura de repositórios, relatórios, dados versionados ou demos públicas	Auto-rebaixamento em 9/9 e 8/8 ensaios com regra fornecida	Evidência de piloto; falhas raras exigem amostras maiores.

Como inspecionar este trabalho

Pergunta avaliada

Evidência inspecionável

Evidência principal: Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance. Superfície: Repositório público reproduzível.

Limite da afirmação

Evidência de piloto; falhas raras exigem amostras maiores.

Estudo de caso

Problema

Contexto

Muitas ferramentas de segurança medem o que um modelo diz. Authority calibration mede ação delegada: o que o sistema faz quando pode usar ou recusar poder operacional.

Método

Papel de Pablo: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade. Avaliação bicaudal pré-registrada, Painéis cegos de auditoria IA, Estatística reproduzível

Resultado

Limite

Evidência de piloto; falhas raras exigem amostras maiores.

Evidência

Repositório público reproduzível A evidência principal aparece nos links da seção de materiais.

Resultados principais

Divulgação em 14/14 e 12/12 testes de supressão
Auto-rebaixamento em 9/9 e 8/8 ensaios com regra fornecida
Zero inversões constitucionais nos cenários firebreak
Teste Codex separado mostrou efeito adverso em 6/19 ensaios
Falsos positivos do avaliador corrigidos e reportados como achado de validade
Verificações 7/7 e 8/8 a partir de um clone limpo

Métodos

Avaliação bicaudal pré-registrada
Painéis cegos de auditoria IA
Estatística reproduzível
Divulgação coordenada