Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

La confianza por sí sola falla en el triaje de supervisión

¿Por qué la confianza del modelo puede estar calibrada en promedio y, aun así, fallar ante la pregunta operativa: qué decisiones de agentes merecen revisión humana escasa?

julio 2, 2026 · 4 min

La calibración promedio queda corta ante la asignación de revisión

Un modelo calibrado puede seguir siendo un mal sistema de triaje. La calibración mide si la confianza declarada coincide con la exactitud en promedio. La supervisión operativa exige otra prueba: cuando el tiempo de revisión es escaso, qué decisiones individuales de agentes merecen el recurso limitado de revisión humana.

Esa distinción importa en sistemas de agentes porque la supervisión es una intervención. El revisor necesita una señal que apunte a decisiones donde la atención humana puede cambiar el resultado.

Supervisión como problema de asignación

Safe MarketUniverses convierte la supervisión en un problema de asignación con presupuesto. Cada episodio contiene decisiones secuenciales de agentes, un presupuesto fijo de revisión humana y un oráculo retrospectivo que gasta el mismo presupuesto de forma óptima tras observar los resultados. El banco de prueba puntúa reglas de revisión por pérdida frente a ese oráculo.

El banco de prueba rechaza la autoconfianza del modelo como indicador sustituto de plausibilidad y premia señales que dirigen la atención hacia decisiones donde la revisión cambia resultados. Una puntuación de confianza puede comportarse bien en agregado mientras pierde las decisiones específicas donde la revisión habría evitado pérdida.

La confianza enrutó revisión cerca del azar

La regla de confianza prerregistrada rindió casi como azar en 120 episodios. Una regla simple de integridad de evidencia funcionó mejor bajo la puntuación prerregistrada. Aun así, ese resultado trae salvedades: el repositorio público muestra que la ventaja es frágil y puede invertirse bajo una puntuación con pesos iguales.

Por tanto, el banco de prueba sostiene una afirmación más estrecha: la calibración promedio por sí sola carece de evidencia operativa suficiente para asignar un presupuesto limitado de revisión humana.

Estándares de diseño para un banco de supervisión

Un banco destinado a guiar supervisión debe puntuar la decisión de supervisión en sí. Eso implica preguntar:

Qué modo de falla intenta detectar el revisor.
Qué evidencia habría hecho visible esa falla.
Si la regla de puntuación coincide con la decisión institucional.
Qué cambia cuando el presupuesto de revisión es fijo.
Qué salvedades sobreviven junto al número principal.

Los bancos de supervisión deberían premiar señales que dirigen revisión escasa hacia decisiones donde la intervención puede cambiar el resultado.