Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Laboratoire d'évaluation RAG

Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.

86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes

Banc d'essai public d'évaluation

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Rôle: Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
AxeÉchantillonCorrecteurRésultatLimite
Résultat principalBanc d'essai public d'évaluationComparaison avec l'affirmation publique et ses artefacts de preuve86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtesL'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Signal de preuvePrécision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancementLecture de dépôts, rapports, données versionnées ou démos publiquesFidélité de 67.6% à 78.5% sur la même tranche d'évaluationL'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Comment inspecter ce travail

Question évaluée

Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.

Preuve inspectable

Preuve principale : 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes. Surface : Banc d'essai public d'évaluation.

Limite de l'affirmation

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Étude de cas

Problème

Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.

Contexte

Le banc d'essai compare une chaîne naïve de récupération top-one à une chaîne améliorée avec réécriture de requêtes orientée rappel et réordonnancement cross-encoder.

Méthode

Rôle de Pablo : Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport. Métriques RAGAS, Métriques SQuAD, Réordonnancement cross-encoder

Résultat

86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement

Limite

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Preuve

Banc d'essai public d'évaluation La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

  • Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement
  • Fidélité de 67.6% à 78.5% sur la même tranche d'évaluation
  • Correspondance exacte en baisse statistiquement significative sur la partition complète

Méthodes

  • Métriques RAGAS
  • Métriques SQuAD
  • Réordonnancement cross-encoder
  • Intervalles de confiance Wilson