Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación

Laboratorio de evaluación RAG

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas

Banco público de evaluación

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Rol: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe.

Tarjeta de evaluación

Ejes de evaluación con muestra, evaluador, resultado y límite.
EjeMuestraEvaluadorResultadoLímite
Resultado principalBanco público de evaluaciónComparación contra la afirmación pública y sus artefactos de prueba86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultasLa fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Señal de evidenciaLa precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamientoLectura de repositorios, informes, datos versionados o demos públicasLa fidelidad subió de 67.6 por ciento a 78.5 por ciento en el mismo corte de evaluaciónLa fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Cómo inspeccionar este trabajo

Pregunta evaluada

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

Evidencia inspeccionable

Evidencia principal: 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas. Superficie: Banco público de evaluación.

Límite de la afirmación

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Estudio de caso

Problema

Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.

Contexto

El banco de prueba compara un flujo ingenuo de recuperación top-one con un flujo mejorado que usa reescritura de consultas orientada a recall y reordenamiento cross-encoder. Puntúa ambos con métricas RAGAS juzgadas por LLM en un corte de 100 consultas y métricas SQuAD determinísticas sobre la partición completa de 918 consultas.

Método

Rol de Pablo: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe. Métricas RAGAS, Métricas SQuAD, Reordenamiento con cross-encoder

Resultado

86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento

Límite

La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.

Evidencia

Banco público de evaluación La evidencia principal aparece en los enlaces de la sección de materiales.

Resultados clave

  • La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento
  • La fidelidad subió de 67.6 por ciento a 78.5 por ciento en el mismo corte de evaluación
  • La coincidencia exacta cayó con margen estadísticamente significativo en la partición completa

Métodos

  • Métricas RAGAS
  • Métricas SQuAD
  • Reordenamiento con cross-encoder
  • Intervalos de confianza Wilson