Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Authority Calibration en agentes IA de largo horizonte

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance

Repositorio público reproducible

Evidencia de piloto; fallas raras quedan fuera de medición.

Rol: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
Eje	Muestra	Evaluador	Resultado	Límite
Resultado principal	Repositorio público reproducible	Comparación contra la afirmación pública y sus artefactos de prueba	Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance	Evidencia de piloto; fallas raras quedan fuera de medición.
Señal de evidencia	Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión	Lectura de repositorios, informes, datos versionados o demos públicas	Se auto degradaron cuando recibieron la instrucción en 9/9 y 8/8 ensayos	Evidencia de piloto; fallas raras quedan fuera de medición.

Cómo inspeccionar este trabajo

Pregunta evaluada

Evidencia inspeccionable

Evidencia principal: Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance. Superficie: Repositorio público reproducible.

Límite de la afirmación

Evidencia de piloto; fallas raras quedan fuera de medición.

Estudio de caso

Problema

Contexto

Muchas herramientas de seguridad miden lo que un modelo dice. Authority calibration mide acción delegada: lo que el sistema hace cuando puede usar o rechazar poder operativo.

Método

Rol de Pablo: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad. Evaluación prerregistrada de dos colas, Paneles ciegos de auditoría IA, Estadística reproducible

Resultado

Límite

Evidencia de piloto; fallas raras quedan fuera de medición.

Evidencia

Repositorio público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión
Se auto degradaron cuando recibieron la instrucción en 9/9 y 8/8 ensayos
Cero inversiones constitucionales en el escenario firebreak para ambos proveedores
Una prueba separada de assurance subversion en Codex mostró un efecto adverso en 6/19 ensayos
Cerca de una docena de falsos positivos del evaluador fueron corregidos y reportados como hallazgo de validez
Las puertas de verificación pasan 7/7 y 8/8 desde un clon limpio

Métodos

Evaluación prerregistrada de dos colas
Paneles ciegos de auditoría IA
Estadística reproducible
Divulgación coordinada