Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Proyectos de evaluación IA con evidencia

Repositorios públicos de evaluación, resúmenes de investigación con datos restringidos y prototipos organizados por artefactos inspeccionables.

Índice de proyectos

Authority Calibration

Prueba: Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
Evidencia: Repositorio público reproducible
Límite: Evidencia de piloto; fallas raras quedan fuera de medición.

Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.

Safe MarketUniverses

Prueba: 120 episodios; pérdida por confianza 0.176 frente a azar 0.191
Evidencia: Banco de prueba público reproducible
Límite: El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.

En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.

Evaluación RAG

Prueba: 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
Evidencia: Banco público de evaluación
Límite: La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

DonorsChoose ML

Prueba: ROC AUC 0.757 en más de 185,000 proyectos de aula reservados para prueba
Evidencia: Repositorio público de análisis
Límite: El modelo sirve como ayuda de triaje; usarlo como sistema de decisión de financiamiento exige validación adicional.

Modelo que identifica solicitudes de aula en DonorsChoose con mayor riesgo de quedar sin financiamiento, para dirigir atención de revisores hacia escuelas con menos recursos. La auditoría de equidad reporta tasas de error desiguales por nivel de pobreza escolar.

NUDG

Prueba: Autorización, restricciones, verificación y recibos para trabajo ejecutado por agentes
Evidencia: Sistema de fundador, afirmaciones públicas acotadas
Límite: Los visuales públicos explican el modelo del sistema; las afirmaciones de producto en producción requieren paquetes de prueba separados.

NUDG es un proyecto de CMU AI Venture Studio para controlar cómo los agentes usan recursos reales. Sustituye acceso amplio por capas de propuesta, autorización, ejecución, verificación y recibos.

Mapeo de inversión IA

Prueba: Más de $10B mapeados en 11 metros; Pittsburgh: $6.3B en 133 firmas
Evidencia: Datos restringidos, resumen agregado público
Límite: Los registros y mapas a nivel de empresa permanecen privados; la página pública muestra agregados y evidencia metodológica.

Proyecto del Block Center que mapea más de diez mil millones de dólares en inversión pública y privada en IA a través de once economías metropolitanas. El corte de Pittsburgh cubre 6.3 mil millones de dólares en 133 firmas.

Simulación laboral IA

Prueba: 14.3 por ciento frente a 3.6 por ciento de desempleo pico bajo regímenes emparejados
Evidencia: Repositorio público de simulación
Límite: Demostración de mecanismo en un mercado laboral pequeño, fuera del alcance de una predicción macroeconómica.

Modelo basado en agentes en NetLogo de un pequeño mercado laboral que se ajusta a automatización con IA. Con trabajadores, geografía y semilla iguales, el desempleo pico llega a 14.3 por ciento bajo una política impulsada por tecnología frente a 3.6 por ciento bajo una política centrada en personas.

Heard.now

Prueba: Muestra pública sintética con 7/7 verificaciones de privacidad e integridad
Evidencia: Piloto privado, artefacto público sintético
Límite: Los visuales públicos usan texto sintético para proteger mensajes comunitarios.

Piloto de escucha cívica con el profesor Jordan Usdan de Heinz College que almacena aportes crudos en privado y publica extractos con verificaciones de privacidad. La muestra sintética pública demuestra una ruta 7/7 de verificación mientras protege mensajes comunitarios.

Event Compass

Prueba: Claude vision extrae tarjetas de afiches; la exportación estática sin backend corre con un tablero de muestra
Evidencia: Demo estática en vivo
Límite: La demo verifica el flujo de extracción con tablero de muestra; la cobertura en vivo del campus queda fuera de alcance.

Prototipo que convierte una foto de una pared de afiches del campus en listados estructurados y personalizados. Claude vision extrae una ficha por afiche; un clasificador determinístico en el navegador ordena resultados por intereses y la app se publica como exportación estática sin backend.

DemFlex ERCOT

Prueba: Modelo de flujo de caja hora por hora con búsqueda de portafolios de termostatos, solar y baterías
Evidencia: Artefacto de proyecto final por solicitud
Límite: El artefacto público muestra el flujo funcional; los materiales completos del proyecto final son privados.

Herramienta de planificación en Streamlit para respuesta de demanda en ERCOT. Compara portafolios de termostatos, solar y baterías hora por hora mediante análisis costo-beneficio de flujo de caja.

Anomalías de ciberseguridad

Prueba: Informe de curso: Isolation Forests y UMAP sobre más de 8M eventos de seguridad a nivel kernel
Evidencia: Trabajo de curso, informe por solicitud
Límite: Materiales detallados disponibles por solicitud; la página pública usa una tarjeta compacta de evidencia.

Proyecto de curso en Carnegie Mellon que usa Isolation Forests y UMAP sobre el conjunto de datos BETH de eventos de seguridad a nivel kernel. El informe de curso registra 95 por ciento de exactitud; materiales detallados están disponibles por solicitud.