Question évaluée
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
Pablo Zavala · Évaluation de sécurité IA · Ingénierie de recherche
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes
L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Rôle: Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport.
| Axe | Échantillon | Correcteur | Résultat | Limite |
|---|---|---|---|---|
| Résultat principal | Banc d'essai public d'évaluation | Comparaison avec l'affirmation publique et ses artefacts de preuve | 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes | L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage. |
| Signal de preuve | Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement | Lecture de dépôts, rapports, données versionnées ou démos publiques | Fidélité de 67.6% à 78.5% sur la même tranche d'évaluation | L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage. |
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
Preuve principale : 86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes. Surface : Banc d'essai public d'évaluation.
L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Banc d'essai comparant des chaînes RAG de base et réordonnées avec métriques RAGAS et SQuAD sur Mini Wikipedia. La chaîne réordonnée atteint 86.6% de précision contextuelle, mais perd en correspondance exacte.
Le banc d'essai compare une chaîne naïve de récupération top-one à une chaîne améliorée avec réécriture de requêtes orientée rappel et réordonnancement cross-encoder.
Rôle de Pablo : Concepteur du banc d'essai : variantes de récupération, métriques, intervalles de confiance et rapport. Métriques RAGAS, Métriques SQuAD, Réordonnancement cross-encoder
86.6% de précision contextuelle après réécriture de requêtes et réordonnancement; correspondance exacte en baisse sur la partition complète de 918 requêtes Précision contextuelle de 69.0% à 86.6% avec réécriture de requêtes et réordonnancement
L'ancrage s'améliore tandis que la correspondance exacte déterministe baisse; le résultat est un arbitrage.
Banc d'essai public d'évaluation La preuve principale se trouve dans les liens de la section matériaux.