Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Laboratorio de evaluación RAG

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas

Banco público de evaluación

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Rol: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
Eje	Muestra	Evaluador	Resultado	Límite
Resultado principal	Banco público de evaluación	Comparación contra la afirmación pública y sus artefactos de prueba	86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas	La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Señal de evidencia	La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento	Lectura de repositorios, informes, datos versionados o demos públicas	La fidelidad subió de 67.6 por ciento a 78.5 por ciento en el mismo corte de evaluación	La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Cómo inspeccionar este trabajo

Pregunta evaluada

Evidencia inspeccionable

Evidencia principal: 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas. Superficie: Banco público de evaluación.

Límite de la afirmación

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Estudio de caso

Problema

Contexto

El banco de prueba compara un flujo ingenuo de recuperación top-one con un flujo mejorado que usa reescritura de consultas orientada a recall y reordenamiento cross-encoder. Puntúa ambos con métricas RAGAS juzgadas por LLM en un corte de 100 consultas y métricas SQuAD determinísticas sobre la partición completa de 918 consultas.

Método

Rol de Pablo: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe. Métricas RAGAS, Métricas SQuAD, Reordenamiento con cross-encoder

Resultado

86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento

Límite

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Evidencia

Banco público de evaluación La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento
La fidelidad subió de 67.6 por ciento a 78.5 por ciento en el mismo corte de evaluación
La coincidencia exacta cayó con margen estadísticamente significativo en la partición completa

Métodos

Métricas RAGAS
Métricas SQuAD
Reordenamiento con cross-encoder
Intervalos de confianza Wilson