Pregunta evaluada
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
Evidencia de piloto; fallas raras quedan fuera de medición.
Rol: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad.
| Eje | Muestra | Evaluador | Resultado | Límite |
|---|---|---|---|---|
| Resultado principal | Repositorio público reproducible | Comparación contra la afirmación pública y sus artefactos de prueba | Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance | Evidencia de piloto; fallas raras quedan fuera de medición. |
| Señal de evidencia | Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión | Lectura de repositorios, informes, datos versionados o demos públicas | Se auto degradaron cuando recibieron la instrucción en 9/9 y 8/8 ensayos | Evidencia de piloto; fallas raras quedan fuera de medición. |
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
Evidencia principal: Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance. Superficie: Repositorio público reproducible.
Evidencia de piloto; fallas raras quedan fuera de medición.
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
Muchas herramientas de seguridad miden lo que un modelo dice. Authority calibration mide acción delegada: lo que el sistema hace cuando puede usar o rechazar poder operativo.
Rol de Pablo: Líder de investigación: marco, diseño del piloto, auditoría del evaluador y paquete de reproducibilidad. Evaluación prerregistrada de dos colas, Paneles ciegos de auditoría IA, Estadística reproducible
Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance Los modelos divulgaron información material en 14/14 y 12/12 pruebas de supresión
Evidencia de piloto; fallas raras quedan fuera de medición.
Repositorio público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.