一、AGAs评估
RAGAs (Retrieval-Augmented Generation Assessment) 是一个框架,可以帮助快速评估RAG系统的性能,为了评估 RAG 系统,RAGAs 需要以下信息:
question:用户输入的问题。
answer:从 RAG 系统生成的答案(由LLM给出)。
contexts:根据用户的问题从外部知识源检索的上下文即与问题相关的文档。
ground_truths: 人类提供的基于问题的真实(正确)答案。 这是唯一的需要人类提供的信息。
二、评估指标
- 底层逻辑:衡量检索到的上下文是否均为回答问题所必需(过滤冗余信息)。
- 计算方式:
- 大模型将每条上下文与问题、答案对比,判断其是否「必要」(即移除后会降低答案质量)。
- 计算公式:
必要上下文数量 / 总检索上下文数量
。
- 大模型作用:负责判断单条上下文的「必要性」,需理解上下文对回答的贡献度。
- 底层逻辑:评估检索到的上下文是否包含回答问题所需的全部关键信息。
- 计算方式:
- 大模型从真实答案(ground truth)中提取「关键信息点」(如核心事实、实体、逻辑关系)。
- 检查这些信息点是否出现在检索到的上下文中。
- 计算公式:
被检索到的关键信息点数量 / 所有必要关键信息点数量
。
- 大模型作用:提取关键信息点并匹配上下文,需具备信息抽取和逻辑比对能力。
- 底层逻辑:衡量检索到的上下文与问题的语义关联度。
- 计算方式:
- 对每条上下文,通过语义模型(如 Sentence-BERT)计算与问题的向量相似度(余弦相似度)。
- 取所有上下文相似度的平均值。
- 大模型作用:主要依赖轻量语义模型(非大模型),但部分实现会用大模型辅助判断「主题匹配度」。
- 底层逻辑:评估检索到的上下文中包含的关键实体是否完整。
- 计算方式:
- 大模型从真实答案中提取「核心实体」(如人名、术语、事件名)。
- 统计这些实体在检索上下文中的出现比例。
- 计算公式:
检索到的关键实体数量 / 所有必要关键实体数量
。
- 大模型作用:负责实体识别和匹配,需理解实体在上下文中的语义等价性(如同义词、缩写)。
生成质量相关指标
- 底层逻辑:衡量答案与问题的关联程度(避免答非所问)。
- 计算方式:
- 大模型直接判断答案是否「直接回应问题核心」,是否包含无关信息。
- 辅助计算答案与问题的语义向量相似度(如用 Sentence-BERT)。
- 综合两者给出 0~1 分数。
- 大模型作用:主导逻辑判断,需理解问题意图与答案的匹配度。
- 底层逻辑:评估生成答案与真实答案的语义相似性。
- 计算方式:
- 将答案与真实答案转换为语义向量(如用 Sentence-BERT)。
- 计算向量间的余弦相似度(范围 0~1)。
- 大模型作用:依赖轻量语义模型,大模型仅在复杂场景(如长文本)辅助优化相似度计算。
- 底层逻辑:评估答案与真实答案的事实匹配程度(支持部分正确)。
- 计算方式:
- 大模型将答案与真实答案拆解为「事实性陈述」。
- 逐一比对陈述的一致性(完全匹配、部分匹配、不匹配)。
- 按匹配比例加权计算得分(完全匹配权重最高)。
- 大模型作用:负责陈述拆解和匹配判断,需理解事实的部分等价性(如同义句)。
- 底层逻辑:评估答案是否完全基于检索到的上下文(无编造信息)。
- 计算方式:
- 大模型将答案拆解为多个「事实性陈述」。
- 逐一验证每个陈述是否能从上下文中找到明确依据。
- 计算公式:
有依据的陈述数量 / 总陈述数量
。
- 大模型作用:核心依赖大模型的逻辑推理能力,需判断陈述与上下文的因果关系。
- 底层逻辑:量化答案中「编造信息」的比例(与 faithfulness 互补)。
- 计算方式:
- 大模型识别答案中所有「未在上下文中出现的事实性陈述」(即幻觉)。
- 计算公式:
幻觉陈述数量 / 总陈述数量
。
- 大模型作用:需精确区分「上下文存在的信息」与「模型编造的信息」,对语义理解要求极高。
- 底层逻辑:综合上述指标,反映 RAG 系统的整体性能。
- 计算方式:
- 对所选指标(如 context_precision、faithfulness、answer_relevancy 等)进行标准化(0~1 范围)。
- 按预设权重(可自定义)加权求和,得到最终综合分(0~1)。
- 大模型作用:不直接参与计算,但其对各子指标的评分结果直接影响综合分。
- 强依赖大模型的指标:context_precision、context_recall、faithfulness、hallucination_score、answer_correctness、answer_relevancy(逻辑判断部分),核心依赖大模型的语义理解和逻辑推理能力。
- 轻依赖大模型的指标:context_relevancy、answer_similarity,主要通过语义向量相似度计算,大模型仅起辅助作用。
- 综合指标:ragas_score 基于其他指标的加权结果,无独立计算逻辑。