Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Proyectos de evaluación IA con evidencia

Repositorios públicos de evaluación, resúmenes de investigación con datos restringidos y prototipos organizados por artefactos inspeccionables.

Índice de proyectos

Authority Calibration

Prueba
Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
Evidencia
Repositorio público reproducible
Límite
Evidencia de piloto; fallas raras quedan fuera de medición.

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Safe MarketUniverses

Prueba
120 episodios; pérdida por confianza 0.176 frente a azar 0.191
Evidencia
Banco de prueba público reproducible
Límite
El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

Evaluación RAG

Prueba
86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
Evidencia
Banco público de evaluación
Límite
La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

DonorsChoose ML

Prueba
ROC AUC 0.757 en más de 185,000 proyectos de aula reservados para prueba
Evidencia
Repositorio público de análisis
Límite
El modelo sirve como ayuda de triaje; usarlo como sistema de decisión de financiamiento exige validación adicional.

Modelo que identifica solicitudes de aula en DonorsChoose con mayor riesgo de quedar sin financiamiento, para dirigir atención de revisores hacia escuelas con menos recursos. La auditoría de equidad reporta tasas de error desiguales por nivel de pobreza escolar.

NUDG

Prueba
Autorización, restricciones, verificación y recibos para trabajo ejecutado por agentes
Evidencia
Sistema de fundador, afirmaciones públicas acotadas
Límite
Los visuales públicos explican el modelo del sistema; las afirmaciones de producto en producción requieren paquetes de prueba separados.

NUDG es un proyecto de CMU AI Venture Studio para controlar cómo los agentes usan recursos reales. Sustituye acceso amplio por capas de propuesta, autorización, ejecución, verificación y recibos.

Mapeo de inversión IA

Prueba
Más de $10B mapeados en 11 metros; Pittsburgh: $6.3B en 133 firmas
Evidencia
Datos restringidos, resumen agregado público
Límite
Los registros y mapas a nivel de empresa permanecen privados; la página pública muestra agregados y evidencia metodológica.

Proyecto del Block Center que mapea más de diez mil millones de dólares en inversión pública y privada en IA a través de once economías metropolitanas. El corte de Pittsburgh cubre 6.3 mil millones de dólares en 133 firmas.

Simulación laboral IA

Prueba
14.3 por ciento frente a 3.6 por ciento de desempleo pico bajo regímenes emparejados
Evidencia
Repositorio público de simulación
Límite
Demostración de mecanismo en un mercado laboral pequeño, fuera del alcance de una predicción macroeconómica.

Modelo basado en agentes en NetLogo de un pequeño mercado laboral que se ajusta a automatización con IA. Con trabajadores, geografía y semilla iguales, el desempleo pico llega a 14.3 por ciento bajo una política impulsada por tecnología frente a 3.6 por ciento bajo una política centrada en personas.

Heard.now

Prueba
Muestra pública sintética con 7/7 verificaciones de privacidad e integridad
Evidencia
Piloto privado, artefacto público sintético
Límite
Los visuales públicos usan texto sintético para proteger mensajes comunitarios.

Piloto de escucha cívica con el profesor Jordan Usdan de Heinz College que almacena aportes crudos en privado y publica extractos con verificaciones de privacidad. La muestra sintética pública demuestra una ruta 7/7 de verificación mientras protege mensajes comunitarios.

Event Compass

Prueba
Claude vision extrae tarjetas de afiches; la exportación estática sin backend corre con un tablero de muestra
Evidencia
Demo estática en vivo
Límite
La demo verifica el flujo de extracción con tablero de muestra; la cobertura en vivo del campus queda fuera de alcance.

Prototipo que convierte una foto de una pared de afiches del campus en listados estructurados y personalizados. Claude vision extrae una ficha por afiche; un clasificador determinístico en el navegador ordena resultados por intereses y la app se publica como exportación estática sin backend.

DemFlex ERCOT

Prueba
Modelo de flujo de caja hora por hora con búsqueda de portafolios de termostatos, solar y baterías
Evidencia
Artefacto de proyecto final por solicitud
Límite
El artefacto público muestra el flujo funcional; los materiales completos del proyecto final son privados.

Herramienta de planificación en Streamlit para respuesta de demanda en ERCOT. Compara portafolios de termostatos, solar y baterías hora por hora mediante análisis costo-beneficio de flujo de caja.

Anomalías de ciberseguridad

Prueba
Informe de curso: Isolation Forests y UMAP sobre más de 8M eventos de seguridad a nivel kernel
Evidencia
Trabajo de curso, informe por solicitud
Límite
Materiales detallados disponibles por solicitud; la página pública usa una tarjeta compacta de evidencia.

Proyecto de curso en Carnegie Mellon que usa Isolation Forests y UMAP sobre el conjunto de datos BETH de eventos de seguridad a nivel kernel. El informe de curso registra 95 por ciento de exactitud; materiales detallados están disponibles por solicitud.