Pergunta avaliada
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
Pablo Zavala · Avaliação de segurança de IA · Engenharia de pesquisa
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas
Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Papel: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório.
| Eixo | Amostra | Avaliador | Resultado | Limite |
|---|---|---|---|---|
| Resultado principal | Banco público de avaliação | Comparação contra a afirmação pública e seus artefatos de prova | 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas | Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca. |
| Sinal de evidência | Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação | Leitura de repositórios, relatórios, dados versionados ou demos públicas | Fidelidade subiu de 67.6% para 78.5% no mesmo corte de avaliação | Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca. |
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
Evidência principal: 86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas. Superfície: Banco público de avaliação.
Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Banco de prova comparando fluxos RAG base e reordenados com métricas RAGAS e SQuAD no corpus Mini Wikipedia. O fluxo reordenado alcança 86.6% de precisão contextual, mas perde correspondência exata.
O banco de prova compara um fluxo ingênuo de recuperação top-one com um fluxo melhorado usando reescrita de consultas orientada a recall e reordenação cross-encoder.
Papel de Pablo: Construtor do banco de prova: variantes de recuperação, métricas, intervalos de confiança e relatório. Métricas RAGAS, Métricas SQuAD, Reordenação com cross-encoder
86.6% de precisão contextual após reescrita de consultas e reordenação; correspondência exata caiu na partição completa de 918 consultas Precisão contextual subiu de 69.0% para 86.6% com reescrita de consultas e reordenação
Ancoragem melhorou enquanto a correspondência exata determinística caiu; o resultado é uma troca.
Banco público de avaliação A evidência principal aparece nos links da seção de materiais.