Pablo Zavala · AI 安全评估 · 研究工程

RAG 评估实验室

一个评估工具链，在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度，但精确匹配下降。

查询重写和重排序后上下文精度 86.6%；918 个查询的完整划分上精确匹配下降

公开评估工具链

根据性提升，同时确定性精确匹配下降；结果是一个权衡。

角色: 评估工具链构建者：检索变体、指标、置信区间和报告。

评估卡

包含样本、评估器、结果与边界的评估维度。
维度	样本	评估器	结果	边界
主要结果	公开评估工具链	将公开声明与其证明工件进行对照	查询重写和重排序后上下文精度 86.6%；918 个查询的完整划分上精确匹配下降	根据性提升，同时确定性精确匹配下降；结果是一个权衡。
证据信号	查询重写和重排序使上下文精度从 69.0% 升至 86.6%	阅读仓库、报告、版本化数据或公开演示	同一评估切片上忠实度从 67.6% 升至 78.5%	根据性提升，同时确定性精确匹配下降；结果是一个权衡。

一个评估工具链，在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度，但精确匹配下降。

主要证据: 查询重写和重排序后上下文精度 86.6%；918 个查询的完整划分上精确匹配下降. 证据表面: 公开评估工具链.

根据性提升，同时确定性精确匹配下降；结果是一个权衡。

一个评估工具链，在 Mini Wikipedia 上用 RAGAS 和 SQuAD 指标比较基线 RAG 流程与重排序流程。重排序流程达到 86.6% 上下文精度，但精确匹配下降。

该工具链比较朴素的 top-one 检索流程与增强流程，后者使用面向召回的查询重写和 cross-encoder 重排序。

Pablo 的角色: 评估工具链构建者：检索变体、指标、置信区间和报告。 RAGAS 指标, SQuAD 指标, Cross-encoder 重排序

查询重写和重排序后上下文精度 86.6%；918 个查询的完整划分上精确匹配下降查询重写和重排序使上下文精度从 69.0% 升至 86.6%

根据性提升，同时确定性精确匹配下降；结果是一个权衡。

公开评估工具链主要证据位于材料区的链接中。