Pregunta evaluada
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
120 episodios; pérdida por confianza 0.176 frente a azar 0.191
El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
Rol: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia.
| Eje | Muestra | Evaluador | Resultado | Límite |
|---|---|---|---|---|
| Resultado principal | Banco de prueba público reproducible | Comparación contra la afirmación pública y sus artefactos de prueba | 120 episodios; pérdida por confianza 0.176 frente a azar 0.191 | El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada. |
| Señal de evidencia | Ciento veinte episodios con evidencia completamente versionada y regenerable | Lectura de repositorios, informes, datos versionados o demos públicas | La confianza emitida por el modelo asignó revisión escasa cerca del azar | El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada. |
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
Evidencia principal: 120 episodios; pérdida por confianza 0.176 frente a azar 0.191. Superficie: Banco de prueba público reproducible.
El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
Safe MarketUniverses evalúa cómo asignar un presupuesto fijo de revisión humana entre decisiones secuenciales de agentes. Puntúa cada regla por pérdida frente a un oráculo retrospectivo que usa el mismo presupuesto de manera óptima. Finanzas sirve como dominio de prueba porque la calidad de evidencia, la incertidumbre y el costo de revisión son visibles en un espacio compacto.
Rol de Pablo: Autor del banco de prueba: diseño de episodios, métrica de pérdida frente al oráculo, análisis y paquete público de evidencia. Pérdida de asignación de supervisión frente a un oráculo retrospectivo, Preregistro, Banco de prueba para evaluación de agentes
120 episodios; pérdida por confianza 0.176 frente a azar 0.191 Ciento veinte episodios con evidencia completamente versionada y regenerable
El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
Banco de prueba público reproducible La evidencia principal aparece en los enlaces de la sección de materiales.