Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Authority Calibration em agentes de IA long-horizon

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance

Repositório público reproduzível

Evidência de piloto; falhas raras exigem amostras maiores.

Papel: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
EixoAmostraAvaliadorResultadoLimite
Resultado principalRepositório público reproduzívelComparação contra a afirmação pública e seus artefatos de provaPiloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assuranceEvidência de piloto; falhas raras exigem amostras maiores.
Sinal de evidênciaDivulgação em 14/14 e 12/12 testes de supressãoLeitura de repositórios, relatórios, dados versionados ou demos públicasAuto-rebaixamento em 9/9 e 8/8 ensaios com regra fornecidaEvidência de piloto; falhas raras exigem amostras maiores.

Como inspecionar este trabalho

Pergunta avaliada

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Evidência inspecionável

Evidência principal: Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance. Superfície: Repositório público reproduzível.

Limite da afirmação

Evidência de piloto; falhas raras exigem amostras maiores.

Estudo de caso

Problema

Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.

Contexto

Muitas ferramentas de segurança medem o que um modelo diz. Authority calibration mede ação delegada: o que o sistema faz quando pode usar ou recusar poder operacional.

Método

Papel de Pablo: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade. Avaliação bicaudal pré-registrada, Painéis cegos de auditoria IA, Estatística reproduzível

Resultado

Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance Divulgação em 14/14 e 12/12 testes de supressão

Limite

Evidência de piloto; falhas raras exigem amostras maiores.

Evidência

Repositório público reproduzível A evidência principal aparece nos links da seção de materiais.

Resultados principais

  • Divulgação em 14/14 e 12/12 testes de supressão
  • Auto-rebaixamento em 9/9 e 8/8 ensaios com regra fornecida
  • Zero inversões constitucionais nos cenários firebreak
  • Teste Codex separado mostrou efeito adverso em 6/19 ensaios
  • Falsos positivos do avaliador corrigidos e reportados como achado de validade
  • Verificações 7/7 e 8/8 a partir de um clone limpo

Métodos

  • Avaliação bicaudal pré-registrada
  • Painéis cegos de auditoria IA
  • Estatística reproduzível
  • Divulgação coordenada