Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa
Confiança sozinha falha na triagem de supervisão
Por que a confiança de um modelo pode estar bem calibrada em média e ainda falhar ao decidir quais ações de agentes merecem a revisão humana disponível.
Calibração média falha na alocação de revisão
Um modelo calibrado ainda pode ser um mau sistema de triagem. Calibração pergunta se a confiança declarada corresponde à acurácia em média. A triagem de supervisão faz uma pergunta operacional: quando o tempo de revisão é limitado, quais decisões individuais de agentes uma pessoa deve inspecionar?
Essa distinção importa em sistemas de agentes porque supervisão é uma intervenção. O revisor precisa de um sinal que aponte para decisões em que atenção humana pode mudar o resultado.
Supervisão como problema de alocação
Safe MarketUniverses transforma supervisão em um problema de alocação com orçamento. Cada episódio contém decisões sequenciais de agentes, um orçamento fixo de revisão humana e um oráculo retrospectivo que usa o mesmo orçamento de forma ótima depois de observar os resultados. O banco de avaliação pontua regras de revisão por perda em relação a esse oráculo.
O banco rejeita autoconfiança do modelo como indicador substituto de plausibilidade e premia sinais que direcionam atenção para decisões em que a revisão muda resultados. Uma pontuação de confiança pode funcionar bem no agregado enquanto perde as decisões específicas em que a revisão teria evitado perda.
A confiança roteou revisão perto do acaso
A regra de confiança pré-registrada se saiu quase como acaso em 120 episódios. Uma regra simples de integridade de evidência funcionou melhor sob a pontuação pré-registrada. Ainda assim, esse resultado traz ressalvas: o repositório público mostra que a vantagem é frágil e pode inverter sob pontuação de pesos iguais.
Portanto, o banco de avaliação sustenta uma afirmação mais estreita: calibração média sozinha carece de evidência operacional suficiente para alocar um orçamento limitado de revisão humana.
Padrões de desenho para um banco de supervisão
Um banco destinado a orientar supervisão deve pontuar a própria decisão de supervisão. Isso implica perguntar:
- Qual modo de falha o revisor tenta capturar.
- Que evidência teria tornado essa falha visível.
- Se a regra de pontuação corresponde à decisão institucional.
- O que muda quando o orçamento de revisão é fixo.
- Quais ressalvas sobrevivem ao lado do número principal.
Bancos de supervisão devem premiar sinais que direcionam revisão escassa para decisões em que a intervenção pode mudar o resultado.