Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Laboratório de avaliação RAG

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas

Banco público de avaliação

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Papel: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
Eixo	Amostra	Avaliador	Resultado	Limite
Resultado principal	Banco público de avaliação	Comparação contra a afirmação pública e seus artefatos de prova	86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas	Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Sinal de evidência	Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação	Leitura de repositórios, relatórios, dados versionados ou demos públicas	Fidelidade subiu de 67.6% para 78.5% no mesmo corte de avaliação	Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Como inspecionar este trabalho

Pergunta avaliada

Evidência inspecionável

Evidência principal: 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas. Superfície: Banco público de avaliação.

Limite da afirmação

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Estudo de caso

Problema

Contexto

O banco de prova compara um fluxo ingênuo de recuperação top-one com um fluxo melhorado usando reescrita de consultas orientada a recall e reordenação cross-encoder.

Método

Papel de Pablo: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório. Métricas RAGAS, Métricas SQuAD, Reordenação com cross-encoder

Resultado

86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação

Limite

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Evidência

Banco público de avaliação A evidência principal aparece nos links da seção de materiais.

Resultados principais

Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação
Fidelidade subiu de 67.6% para 78.5% no mesmo corte de avaliação
Correspondência exata caiu com margem estatisticamente significativa na partição completa

Métodos

Métricas RAGAS
Métricas SQuAD
Reordenação com cross-encoder
Intervalos de confiança Wilson