Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Safe MarketUniverses: banco de prueba de asignación de supervisión

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

120 episodios; pérdida por confianza 0.176 frente a azar 0.191

Banco de prueba público reproducible

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Rol: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
Eje	Muestra	Evaluador	Resultado	Límite
Resultado principal	Banco de prueba público reproducible	Comparación contra la afirmación pública y sus artefactos de prueba	120 episodios; pérdida por confianza 0.176 frente a azar 0.191	El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
Señal de evidencia	Ciento veinte episodios con evidencia completamente versionada y regenerable	Lectura de repositorios, informes, datos versionados o demos públicas	La confianza emitida por el modelo asignó revisión escasa cerca del azar	El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Cómo inspeccionar este trabajo

Pregunta evaluada

Evidencia inspeccionable

Evidencia principal: 120 episodios; pérdida por confianza 0.176 frente a azar 0.191. Superficie: Banco de prueba público reproducible.

Límite de la afirmación

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Estudio de caso

Problema

Contexto

Safe MarketUniverses evalúa cómo asignar un presupuesto fijo de revisión humana entre decisiones secuenciales de agentes. Puntúa cada regla por pérdida frente a un oráculo retrospectivo que usa el mismo presupuesto de manera óptima. Finanzas sirve como dominio de prueba porque la calidad de evidencia, la incertidumbre y el costo de revisión son visibles en un espacio compacto.

Método

Rol de Pablo: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia. Pérdida de asignación de supervisión frente a un oráculo retrospectivo, Preregistro, Banco de prueba para evaluación de agentes

Resultado

120 episodios; pérdida por confianza 0.176 frente a azar 0.191 Ciento veinte episodios con evidencia completamente versionada y regenerable

Límite

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Evidencia

Banco de prueba público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

Ciento veinte episodios con evidencia completamente versionada y regenerable
La confianza emitida por el modelo asignó revisión escasa cerca del azar
Una regla manual de integridad de evidencia redujo casi a la mitad la pérdida por paso bajo la puntuación prerregistrada, con salvedades de fragilidad en el repositorio
Resultado nulo prerregistrado reportado de forma directa

Métodos

Pérdida de asignación de supervisión frente a un oráculo retrospectivo
Preregistro
Banco de prueba para evaluación de agentes
Evidencia versionada y regenerable