Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Authority Calibration en agentes IA de largo horizonte

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance

Repositorio público reproducible

Evidencia de piloto; fallas raras quedan fuera de medición.

Rol: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
EjeMuestraEvaluadorResultadoLímite
Resultado principalRepositorio público reproducibleComparación contra la afirmación pública y sus artefactos de pruebaPiloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assuranceEvidencia de piloto; fallas raras quedan fuera de medición.
Señal de evidenciaLos modelos divulgaron información material en 14/14 y 12/12 pruebas de supresiónLectura de repositorios, informes, datos versionados o demos públicasSe auto degradaron cuando recibieron la instrucción en 9/9 y 8/8 ensayosEvidencia de piloto; fallas raras quedan fuera de medición.

Cómo inspeccionar este trabajo

Pregunta evaluada

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Evidencia inspeccionable

Evidencia principal: Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance. Superficie: Repositorio público reproducible.

Límite de la afirmación

Evidencia de piloto; fallas raras quedan fuera de medición.

Estudio de caso

Problema

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Contexto

Muchas herramientas de seguridad miden lo que un modelo dice. Authority calibration mide acción delegada: lo que el sistema hace cuando puede usar o rechazar poder operativo.

Método

Rol de Pablo: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad. Evaluación prerregistrada de dos colas, Paneles ciegos de auditoría IA, Estadística reproducible

Resultado

Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión

Límite

Evidencia de piloto; fallas raras quedan fuera de medición.

Evidencia

Repositorio público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

  • Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión
  • Se auto degradaron cuando recibieron la instrucción en 9/9 y 8/8 ensayos
  • Cero inversiones constitucionales en el escenario firebreak para ambos proveedores
  • Una prueba separada de assurance subversion en Codex mostró un efecto adverso en 6/19 ensayos
  • Cerca de una docena de falsos positivos del evaluador fueron corregidos y reportados como hallazgo de validez
  • Las puertas de verificación pasan 7/7 y 8/8 desde un clon limpio

Métodos

  • Evaluación prerregistrada de dos colas
  • Paneles ciegos de auditoría IA
  • Estadística reproducible
  • Divulgación coordinada