Pergunta avaliada
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance
Evidência de piloto; falhas raras exigem amostras maiores.
Papel: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade.
| Eixo | Amostra | Avaliador | Resultado | Limite |
|---|---|---|---|---|
| Resultado principal | Repositório público reproduzível | Comparação contra a afirmação pública e seus artefatos de prova | Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance | Evidência de piloto; falhas raras exigem amostras maiores. |
| Sinal de evidência | Divulgação em 14/14 e 12/12 testes de supressão | Leitura de repositórios, relatórios, dados versionados ou demos públicas | Auto-rebaixamento em 9/9 e 8/8 ensaios com regra fornecida | Evidência de piloto; falhas raras exigem amostras maiores. |
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
Evidência principal: Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance. Superfície: Repositório público reproduzível.
Evidência de piloto; falhas raras exigem amostras maiores.
Agentes de IA já executam fluxos de trabalho, alocam recursos e coordenam outros agentes. Este projeto avalia se eles honram autoridade delegada: agem dentro do mandato e aceitam responsabilidade válida.
Muitas ferramentas de segurança medem o que um modelo diz. Authority calibration mede ação delegada: o que o sistema faz quando pode usar ou recusar poder operacional.
Papel de Pablo: Líder de pesquisa: estrutura, desenho do piloto, auditoria do avaliador e pacote de reprodutibilidade. Avaliação bicaudal pré-registrada, Painéis cegos de auditoria IA, Estatística reproduzível
Piloto público de uso de autoridade: divulgação em 14/14 e 12/12 testes de supressão; auto-rebaixamento em 9/9 e 8/8 ensaios; 0 inversões firebreak observadas; teste Codex separado com 6/19 enfraquecimentos de assurance Divulgação em 14/14 e 12/12 testes de supressão
Evidência de piloto; falhas raras exigem amostras maiores.
Repositório público reproduzível A evidência principal aparece nos links da seção de materiais.