Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Safe MarketUniverses: banco de prueba de asignación de supervisión

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

120 episodios; pérdida por confianza 0.176 frente a azar 0.191

Banco de prueba público reproducible

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Rol: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
EjeMuestraEvaluadorResultadoLímite
Resultado principalBanco de prueba público reproducibleComparación contra la afirmación pública y sus artefactos de prueba120 episodios; pérdida por confianza 0.176 frente a azar 0.191El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
Señal de evidenciaCiento veinte episodios con evidencia completamente versionada y regenerableLectura de repositorios, informes, datos versionados o demos públicasLa confianza emitida por el modelo asignó revisión escasa cerca del azarEl banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Cómo inspeccionar este trabajo

Pregunta evaluada

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

Evidencia inspeccionable

Evidencia principal: 120 episodios; pérdida por confianza 0.176 frente a azar 0.191. Superficie: Banco de prueba público reproducible.

Límite de la afirmación

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Estudio de caso

Problema

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

Contexto

Safe MarketUniverses evalúa cómo asignar un presupuesto fijo de revisión humana entre decisiones secuenciales de agentes. Puntúa cada regla por pérdida frente a un oráculo retrospectivo que usa el mismo presupuesto de manera óptima. Finanzas sirve como dominio de prueba porque la calidad de evidencia, la incertidumbre y el costo de revisión son visibles en un espacio compacto.

Método

Rol de Pablo: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia. Pérdida de asignación de supervisión frente a un oráculo retrospectivo, Preregistro, Banco de prueba para evaluación de agentes

Resultado

120 episodios; pérdida por confianza 0.176 frente a azar 0.191 Ciento veinte episodios con evidencia completamente versionada y regenerable

Límite

El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

Evidencia

Banco de prueba público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

  • Ciento veinte episodios con evidencia completamente versionada y regenerable
  • La confianza emitida por el modelo asignó revisión escasa cerca del azar
  • Una regla manual de integridad de evidencia redujo casi a la mitad la pérdida por paso bajo la puntuación prerregistrada, con salvedades de fragilidad en el repositorio
  • Resultado nulo prerregistrado reportado de forma directa

Métodos

  • Pérdida de asignación de supervisión frente a un oráculo retrospectivo
  • Preregistro
  • Banco de prueba para evaluación de agentes
  • Evidencia versionada y regenerable