Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa

Laboratório de avaliação RAG

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas

Banco público de avaliação

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Papel: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório.

Cartão de avaliação

Eixos de avaliação com amostra, avaliador, resultado e limite.
EixoAmostraAvaliadorResultadoLimite
Resultado principalBanco público de avaliaçãoComparação contra a afirmação pública e seus artefatos de prova86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultasAncoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Sinal de evidênciaPrecisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenaçãoLeitura de repositórios, relatórios, dados versionados ou demos públicasFidelidade subiu de 67.6% para 78.5% no mesmo corte de avaliaçãoAncoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Como inspecionar este trabalho

Pergunta avaliada

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

Evidência inspecionável

Evidência principal: 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas. Superfície: Banco público de avaliação.

Limite da afirmação

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Estudo de caso

Problema

Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.

Contexto

O banco de prova compara um fluxo ingênuo de recuperação top-one com um fluxo melhorado usando reescrita de consultas orientada a recall e reordenação cross-encoder.

Método

Papel de Pablo: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório. Métricas RAGAS, Métricas SQuAD, Reordenação com cross-encoder

Resultado

86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação

Limite

Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.

Evidência

Banco público de avaliação A evidência principal aparece nos links da seção de materiais.

Resultados principais

  • Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação
  • Fidelidade subiu de 67.6% para 78.5% no mesmo corte de avaliação
  • Correspondência exata caiu com margem estatisticamente significativa na partição completa

Métodos

  • Métricas RAGAS
  • Métricas SQuAD
  • Reordenação com cross-encoder
  • Intervalos de confiança Wilson