Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Confiança sozinha falha na triagem de supervisão

Por que a confiança de um modelo pode estar bem calibrada em média e ainda falhar ao decidir quais ações de agentes merecem a revisão humana disponível.

julho 2, 2026 · 4 min

Calibração média falha na alocação de revisão

Um modelo calibrado ainda pode ser um mau sistema de triagem. Calibração pergunta se a confiança declarada corresponde à acurácia em média. A triagem de supervisão faz uma pergunta operacional: quando o tempo de revisão é limitado, quais decisões individuais de agentes uma pessoa deve inspecionar?

Essa distinção importa em sistemas de agentes porque supervisão é uma intervenção. O revisor precisa de um sinal que aponte para decisões em que atenção humana pode mudar o resultado.

Supervisão como problema de alocação

Safe MarketUniverses transforma supervisão em um problema de alocação com orçamento. Cada episódio contém decisões sequenciais de agentes, um orçamento fixo de revisão humana e um oráculo retrospectivo que usa o mesmo orçamento de forma ótima depois de observar os resultados. O banco de avaliação pontua regras de revisão por perda em relação a esse oráculo.

O banco rejeita autoconfiança do modelo como indicador substituto de plausibilidade e premia sinais que direcionam atenção para decisões em que a revisão muda resultados. Uma pontuação de confiança pode funcionar bem no agregado enquanto perde as decisões específicas em que a revisão teria evitado perda.

A confiança roteou revisão perto do acaso

A regra de confiança pré-registrada se saiu quase como acaso em 120 episódios. Uma regra simples de integridade de evidência funcionou melhor sob a pontuação pré-registrada. Ainda assim, esse resultado traz ressalvas: o repositório público mostra que a vantagem é frágil e pode inverter sob pontuação de pesos iguais.

Portanto, o banco de avaliação sustenta uma afirmação mais estreita: calibração média sozinha carece de evidência operacional suficiente para alocar um orçamento limitado de revisão humana.

Padrões de desenho para um banco de supervisão

Um banco destinado a orientar supervisão deve pontuar a própria decisão de supervisão. Isso implica perguntar:

Qual modo de falha o revisor tenta capturar.
Que evidência teria tornado essa falha visível.
Se a regra de pontuação corresponde à decisão institucional.
O que muda quando o orçamento de revisão é fixo.
Quais ressalvas sobrevivem ao lado do número principal.

Bancos de supervisão devem premiar sinais que direcionam revisão escassa para decisões em que a intervenção pode mudar o resultado.