- Prueba
- Piloto público de uso de autoridad: divulgación en 14/14 y 12/12 pruebas de supresión; auto degradación en 9/9 y 8/8 ensayos con regla; 0 inversiones firebreak observadas; prueba separada en Codex detectó 6/19 debilitamientos de assurance
- Evidencia
- Repositorio público reproducible
- Límite
- Evidencia de piloto; fallas raras quedan fuera de medición.
Los agentes de IA ya ejecutan flujos de trabajo, asignan recursos y coordinan otros agentes. Este proyecto evalúa si usan la autoridad delegada correctamente: dentro del mandato y sin rechazar poder que sí poseen.
- Prueba
- 120 episodios; pérdida por confianza 0.176 frente a azar 0.191
- Evidencia
- Banco de prueba público reproducible
- Límite
- El banco de prueba evalúa asignación en un entorno financiero compacto; otros contextos requieren validación separada.
En un banco de prueba de 120 episodios para asignar supervisión, la asignación por confianza llegó a pérdida 0.176 frente a 0.191 de asignación aleatoria, una diferencia insuficiente como señal de triaje.
- Prueba
- 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
- Evidencia
- Banco público de evaluación
- Límite
- La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
- Prueba
- ROC AUC 0.757 en más de 185,000 proyectos de aula reservados para prueba
- Evidencia
- Repositorio público de análisis
- Límite
- El modelo sirve como ayuda de triaje; usarlo como sistema de decisión de financiamiento exige validación adicional.
Modelo que identifica solicitudes de aula en DonorsChoose con mayor riesgo de quedar sin financiamiento, para dirigir atención de revisores hacia escuelas con menos recursos. La auditoría de equidad reporta tasas de error desiguales por nivel de pobreza escolar.
- Prueba
- Autorización, restricciones, verificación y recibos para trabajo ejecutado por agentes
- Evidencia
- Sistema de fundador, afirmaciones públicas acotadas
- Límite
- Los visuales públicos explican el modelo del sistema; las afirmaciones de producto en producción requieren paquetes de prueba separados.
NUDG es un proyecto de CMU AI Venture Studio para controlar cómo los agentes usan recursos reales. Sustituye acceso amplio por capas de propuesta, autorización, ejecución, verificación y recibos.
- Prueba
- Más de $10B mapeados en 11 metros; Pittsburgh: $6.3B en 133 firmas
- Evidencia
- Datos restringidos, resumen agregado público
- Límite
- Los registros y mapas a nivel de empresa permanecen privados; la página pública muestra agregados y evidencia metodológica.
Proyecto del Block Center que mapea más de diez mil millones de dólares en inversión pública y privada en IA a través de once economías metropolitanas. El corte de Pittsburgh cubre 6.3 mil millones de dólares en 133 firmas.