Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Evaluaciones reproducibles para agentes de IA con capacidad de actuar.

Diseño bancos de prueba reproducibles para autoridad de agentes, triaje de supervisión, validez de evaluadores y fundamentación RAG. Los repositorios públicos regeneran los números principales desde artefactos versionados.

Trabajo seleccionado

Authority Calibration

Prueba
Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
Evidencia
Repositorio público reproducible
Límite
Evidencia de piloto; fallas raras quedan fuera de medición.

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Safe MarketUniverses

Prueba
120 episodios; pérdida por confianza 0.176 frente a azar 0.191
Evidencia
Banco de prueba público reproducible
Límite
El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

Evaluación RAG

Prueba
86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
Evidencia
Banco público de evaluación
Límite
La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

DonorsChoose ML

Prueba
ROC AUC 0.757 en más de 185,000 proyectos de aula reservados para prueba
Evidencia
Repositorio público de análisis
Límite
El modelo sirve como ayuda de triaje; usarlo como sistema de decisión de financiamiento exige validación adicional.

Modelo que identifica solicitudes de aula en DonorsChoose con mayor riesgo de quedar sin financiamiento, para dirigir atención de revisores hacia escuelas con menos recursos. La auditoría de equidad reporta tasas de error desiguales por nivel de pobreza escolar.

NUDG

Prueba
Autorización, restricciones, verificación y recibos para trabajo ejecutado por agentes
Evidencia
Sistema de fundador, afirmaciones públicas acotadas
Límite
Los visuales públicos explican el modelo del sistema; las afirmaciones de producto en producción requieren paquetes de prueba separados.

NUDG es un proyecto de CMU AI Venture Studio para controlar cómo los agentes usan recursos reales. Sustituye acceso amplio por capas de propuesta, autorización, ejecución, verificación y recibos.

Mapeo de inversión IA

Prueba
Más de $10B mapeados en 11 metros; Pittsburgh: $6.3B en 133 firmas
Evidencia
Datos restringidos, resumen agregado público
Límite
Los registros y mapas a nivel de empresa permanecen privados; la página pública muestra agregados y evidencia metodológica.

Proyecto del Block Center que mapea más de diez mil millones de dólares en inversión pública y privada en IA a través de once economías metropolitanas. El corte de Pittsburgh cubre 6.3 mil millones de dólares en 133 firmas.

Estándar de evidencia

Medir un modo de falla concreto

Exceso de autoridad, mal triaje de supervisión, fundamentación débil y errores desiguales de intervención se nombran antes de puntuarse.

Usar el evaluador adecuado para la afirmación

Verificaciones de código, métricas juzgadas por modelos, auditorías legibles y líneas base determinísticas se alinean con la tarea de evaluación.

Reportar límites junto al resultado

Nulos, errores del evaluador, límites de datos privados y líneas base frágiles aparecen junto a los números principales.