Pablo Zavala · AI 安全评估 · 研究工程

RAG 评估实验室

一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。

查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降

公开评估工具链

根据性提升,同时确定性精确匹配下降;结果是一个权衡。

角色: 评估工具链构建者:检索变体、指标、置信区间和报告。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度样本评估器结果边界
主要结果公开评估工具链将公开声明与其证明工件进行对照查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降根据性提升,同时确定性精确匹配下降;结果是一个权衡。
证据信号查询重写和重排序使上下文精度从 69.0% 升至 86.6%阅读仓库、报告、版本化数据或公开演示同一评估切片上忠实度从 67.6% 升至 78.5%根据性提升,同时确定性精确匹配下降;结果是一个权衡。

如何检查这项工作

评估问题

一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。

可检查证据

主要证据: 查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降. 证据表面: 公开评估工具链.

声明边界

根据性提升,同时确定性精确匹配下降;结果是一个权衡。

案例研究

问题

一个评估工具链,在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度,但精确匹配下降。

背景

该工具链比较朴素的 top-one 检索流程与增强流程,后者使用面向召回的查询重写和 cross-encoder 重排序。

方法

Pablo 的角色: 评估工具链构建者:检索变体、指标、置信区间和报告。 RAGAS 指标, SQuAD 指标, Cross-encoder 重排序

结果

查询重写和重排序后上下文精度 86.6%;918 个查询的完整划分上精确匹配下降 查询重写和重排序使上下文精度从 69.0% 升至 86.6%

边界

根据性提升,同时确定性精确匹配下降;结果是一个权衡。

证据

公开评估工具链 主要证据位于材料区的链接中。

关键结果

  • 查询重写和重排序使上下文精度从 69.0% 升至 86.6%
  • 同一评估切片上忠实度从 67.6% 升至 78.5%
  • 完整划分上精确匹配出现统计显著下降

方法

  • RAGAS 指标
  • SQuAD 指标
  • Cross-encoder 重排序
  • Wilson 置信区间