Pregunta evaluada
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
Pablo Zavala · Evaluación de seguridad de IA · Ingeniería de investigación
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas
La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Rol: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe.
| Eje | Muestra | Evaluador | Resultado | Límite |
|---|---|---|---|---|
| Resultado principal | Banco público de evaluación | Comparación contra la afirmación pública y sus artefactos de prueba | 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas | La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas. |
| Señal de evidencia | La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento | Lectura de repositorios, informes, datos versionados o demos públicas | La fidelidad subió de 67.6 por ciento a 78.5 por ciento en el mismo corte de evaluación | La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas. |
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
Evidencia principal: 86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas. Superficie: Banco público de evaluación.
La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Banco de prueba que compara flujos RAG base y reordenados con métricas RAGAS y SQuAD en Mini Wikipedia. El flujo reordenado alcanza 86.6 por ciento de precisión contextual, pero pierde coincidencia exacta.
El banco de prueba compara un flujo ingenuo de recuperación top-one con un flujo mejorado que usa reescritura de consultas orientada a recall y reordenamiento cross-encoder. Puntúa ambos con métricas RAGAS juzgadas por LLM en un corte de 100 consultas y métricas SQuAD determinísticas sobre la partición completa de 918 consultas.
Rol de Pablo: Constructor del banco de prueba: variantes de recuperación, métricas, intervalos de confianza e informe. Métricas RAGAS, Métricas SQuAD, Reordenamiento con cross-encoder
86.6 por ciento de precisión contextual tras reescritura de consultas y reordenamiento; la coincidencia exacta cayó en la partición completa de 918 consultas La precisión contextual subió de 69.0 por ciento a 86.6 por ciento con reescritura de consultas y reordenamiento
La fundamentación mejoró mientras la coincidencia exacta determinística bajó; el resultado es una tensión entre métricas.
Banco público de evaluación La evidencia principal aparece en los enlaces de la sección de materiales.