Confiança sozinha falha na triagem de supervisão
julho 2, 2026. Por que a confiança de um modelo pode estar bem calibrada em média e ainda falhar ao decidir quais ações de agentes merecem a revisão humana disponível.
Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa
Notas sobre governança de IA, avaliação, economia e design institucional de Pablo Zavala.
julho 2, 2026. Por que a confiança de um modelo pode estar bem calibrada em média e ainda falhar ao decidir quais ações de agentes merecem a revisão humana disponível.