Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche

Laboratoire d'évaluation RAG

Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.

86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes

Banc d'essai public d'évaluation

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Rôle: Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport.

Carte d'évaluation

Axes d'évaluation avec échantillon, correcteur, résultat et limite.
Axe	Échantillon	Correcteur	Résultat	Limite
Résultat principal	Banc d'essai public d'évaluation	Comparaison avec l'affirmation publique et ses artefacts de preuve	86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes	L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Signal de preuve	Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement	Lecture de dépôts, rapports, données versionnées ou démos publiques	Fidélité de 67.6% à 78.5% sur la même tranche d'évaluation	L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Comment inspecter ce travail

Question évaluée

Preuve inspectable

Preuve principale : 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes. Surface : Banc d'essai public d'évaluation.

Limite de l'affirmation

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Étude de cas

Problème

Contexte

Le banc d'essai compare une chaîne naïve de récupération top-one à une chaîne améliorée avec réécriture de requêtes orientée rappel et réordonnancement cross-encoder.

Méthode

Rôle de Pablo : Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport. Métriques RAGAS, Métriques SQuAD, Réordonnancement cross-encoder

Résultat

86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement

Limite

L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.

Preuve

Banc d'essai public d'évaluation La preuve principale se trouve dans les liens de la section matériaux.

Résultats clés

Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement
Fidélité de 67.6% à 78.5% sur la même tranche d'évaluation
Correspondance exacte en baisse statistiquement significative sur la partition complète

Méthodes

Métriques RAGAS
Métriques SQuAD
Réordonnancement cross-encoder
Intervalles de confiance Wilson