- Prueba
- Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
- Evidencia
- Repositorio público reproducible
- Límite
- Evidencia de piloto; fallas raras quedan fuera de medición.
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
- Prueba
- 120 episodios; pérdida por confianza 0.176 frente a azar 0.191
- Evidencia
- Banco de prueba público reproducible
- Límite
- El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
- Prueba
- 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
- Evidencia
- Banco público de evaluación
- Límite
- La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
- Prueba
- ROC AUC 0.757 en más de 185,000 proyectos de aula reservados para prueba
- Evidencia
- Repositorio público de análisis
- Límite
- El modelo sirve como ayuda de triaje; usarlo como sistema de decisión de financiamiento exige validación adicional.
Modelo que identifica solicitudes de aula en DonorsChoose con mayor riesgo de quedar sin financiamiento, para dirigir atención de revisores hacia escuelas con menos recursos. La auditoría de equidad reporta tasas de error desiguales por nivel de pobreza escolar.
- Prueba
- Autorización, restricciones, verificación y recibos para trabajo ejecutado por agentes
- Evidencia
- Sistema de fundador, afirmaciones públicas acotadas
- Límite
- Los visuales públicos explican el modelo del sistema; las afirmaciones de producto en producción requieren paquetes de prueba separados.
NUDG es un proyecto de CMU AI Venture Studio para controlar cómo los agentes usan recursos reales. Sustituye acceso amplio por capas de propuesta, autorización, ejecución, verificación y recibos.
- Prueba
- Más de $10B mapeados en 11 metros; Pittsburgh: $6.3B en 133 firmas
- Evidencia
- Datos restringidos, resumen agregado público
- Límite
- Los registros y mapas a nivel de empresa permanecen privados; la página pública muestra agregados y evidencia metodológica.
Proyecto del Block Center que mapea más de diez mil millones de dólares en inversión pública y privada en IA a través de once economías metropolitanas. El corte de Pittsburgh cubre 6.3 mil millones de dólares en 133 firmas.
- Prueba
- 14.3 por ciento frente a 3.6 por ciento de desempleo pico bajo regímenes emparejados
- Evidencia
- Repositorio público de simulación
- Límite
- Demostración de mecanismo en un mercado laboral pequeño, fuera del alcance de una predicción macroeconómica.
Modelo basado en agentes en NetLogo de un pequeño mercado laboral que se ajusta a automatización con IA. Con trabajadores, geografía y semilla iguales, el desempleo pico llega a 14.3 por ciento bajo una política impulsada por tecnología frente a 3.6 por ciento bajo una política centrada en personas.
- Prueba
- Muestra pública sintética con 7/7 verificaciones de privacidad e integridad
- Evidencia
- Piloto privado, artefacto público sintético
- Límite
- Los visuales públicos usan texto sintético para proteger mensajes comunitarios.
Piloto de escucha cívica con el profesor Jordan Usdan de Heinz College que almacena aportes crudos en privado y publica extractos con verificaciones de privacidad. La muestra sintética pública demuestra una ruta 7/7 de verificación mientras protege mensajes comunitarios.
- Prueba
- Claude vision extrae tarjetas de afiches; la exportación estática sin backend corre con un tablero de muestra
- Evidencia
- Demo estática en vivo
- Límite
- La demo verifica el flujo de extracción con tablero de muestra; la cobertura en vivo del campus queda fuera de alcance.
Prototipo que convierte una foto de una pared de afiches del campus en listados estructurados y personalizados. Claude vision extrae una ficha por afiche; un clasificador determinístico en el navegador ordena resultados por intereses y la app se publica como exportación estática sin backend.
- Prueba
- Modelo de flujo de caja hora por hora con búsqueda de portafolios de termostatos, solar y baterías
- Evidencia
- Artefacto de proyecto final por solicitud
- Límite
- El artefacto público muestra el flujo funcional; los materiales completos del proyecto final son privados.
Herramienta de planificación en Streamlit para respuesta de demanda en ERCOT. Compara portafolios de termostatos, solar y baterías hora por hora mediante análisis costo-beneficio de flujo de caja.
- Prueba
- Informe de curso: Isolation Forests y UMAP sobre más de 8M eventos de seguridad a nivel kernel
- Evidencia
- Trabajo de curso, informe por solicitud
- Límite
- Materiales detallados disponibles por solicitud; la página pública usa una tarjeta compacta de evidencia.
Proyecto de curso en Carnegie Mellon que usa Isolation Forests y UMAP sobre el conjunto de datos BETH de eventos de seguridad a nivel kernel. El informe de curso registra 95 por ciento de exactitud; materiales detallados están disponibles por solicitud.