当前位置：首页 > news >正文

RAGAS大模型评估框架

news 2025/9/26 17:30:21

一、AGAs评估

RAGAs (Retrieval-Augmented Generation Assessment) 是一个框架，可以帮助快速评估RAG系统的性能，为了评估 RAG 系统，RAGAs 需要以下信息:

question：用户输入的问题。
answer：从 RAG 系统生成的答案(由LLM给出)。
contexts：根据用户的问题从外部知识源检索的上下文即与问题相关的文档。
ground_truths：人类提供的基于问题的真实(正确)答案。这是唯一的需要人类提供的信息。

二、评估指标

RAGAS提供了10种核心计算指标，包括检索质量/生成质量/事实一致性

检索质量相关指标

1. context_precision（上下文精确性）

底层逻辑：衡量检索到的上下文是否均为回答问题所必需（过滤冗余信息）。
计算方式：
1. 大模型将每条上下文与问题、答案对比，判断其是否「必要」（即移除后会降低答案质量）。
2. 计算公式：必要上下文数量 / 总检索上下文数量。
大模型作用：负责判断单条上下文的「必要性」，需理解上下文对回答的贡献度。

2. context_recall（上下文召回率）

底层逻辑：评估检索到的上下文是否包含回答问题所需的全部关键信息。
计算方式：
1. 大模型从真实答案（ground truth）中提取「关键信息点」（如核心事实、实体、逻辑关系）。
2. 检查这些信息点是否出现在检索到的上下文中。
3. 计算公式：被检索到的关键信息点数量 / 所有必要关键信息点数量。
大模型作用：提取关键信息点并匹配上下文，需具备信息抽取和逻辑比对能力。

3. context_relevancy（上下文相关性）

底层逻辑：衡量检索到的上下文与问题的语义关联度。
计算方式：
1. 对每条上下文，通过语义模型（如 Sentence-BERT）计算与问题的向量相似度（余弦相似度）。
2. 取所有上下文相似度的平均值。
大模型作用：主要依赖轻量语义模型（非大模型），但部分实现会用大模型辅助判断「主题匹配度」。

4. context_entity_recall（上下文实体召回率）

底层逻辑：评估检索到的上下文中包含的关键实体是否完整。
计算方式：
1. 大模型从真实答案中提取「核心实体」（如人名、术语、事件名）。
2. 统计这些实体在检索上下文中的出现比例。
3. 计算公式：检索到的关键实体数量 / 所有必要关键实体数量。
大模型作用：负责实体识别和匹配，需理解实体在上下文中的语义等价性（如同义词、缩写）。

生成质量相关指标

5. answer_relevancy（答案相关性）

底层逻辑：衡量答案与问题的关联程度（避免答非所问）。
计算方式：
1. 大模型直接判断答案是否「直接回应问题核心」，是否包含无关信息。
2. 辅助计算答案与问题的语义向量相似度（如用 Sentence-BERT）。
3. 综合两者给出 0~1 分数。
大模型作用：主导逻辑判断，需理解问题意图与答案的匹配度。

6. answer_similarity（答案相似度）

底层逻辑：评估生成答案与真实答案的语义相似性。
计算方式：
1. 将答案与真实答案转换为语义向量（如用 Sentence-BERT）。
2. 计算向量间的余弦相似度（范围 0~1）。
大模型作用：依赖轻量语义模型，大模型仅在复杂场景（如长文本）辅助优化相似度计算。

7. answer_correctness（答案正确性）

底层逻辑：评估答案与真实答案的事实匹配程度（支持部分正确）。
计算方式：
1. 大模型将答案与真实答案拆解为「事实性陈述」。
2. 逐一比对陈述的一致性（完全匹配、部分匹配、不匹配）。
3. 按匹配比例加权计算得分（完全匹配权重最高）。
大模型作用：负责陈述拆解和匹配判断，需理解事实的部分等价性（如同义句）。

事实一致性相关指标

8. faithfulness（忠实性）

底层逻辑：评估答案是否完全基于检索到的上下文（无编造信息）。
计算方式：
1. 大模型将答案拆解为多个「事实性陈述」。
2. 逐一验证每个陈述是否能从上下文中找到明确依据。
3. 计算公式：有依据的陈述数量 / 总陈述数量。
大模型作用：核心依赖大模型的逻辑推理能力，需判断陈述与上下文的因果关系。

9. hallucination_score（幻觉评分）

底层逻辑：量化答案中「编造信息」的比例（与 faithfulness 互补）。
计算方式：
1. 大模型识别答案中所有「未在上下文中出现的事实性陈述」（即幻觉）。
2. 计算公式：幻觉陈述数量 / 总陈述数量。
大模型作用：需精确区分「上下文存在的信息」与「模型编造的信息」，对语义理解要求极高。

综合指标

10. ragas_score（RAGAS 综合得分）

底层逻辑：综合上述指标，反映 RAG 系统的整体性能。
计算方式：
1. 对所选指标（如 context_precision、faithfulness、answer_relevancy 等）进行标准化（0~1 范围）。
2. 按预设权重（可自定义）加权求和，得到最终综合分（0~1）。
大模型作用：不直接参与计算，但其对各子指标的评分结果直接影响综合分。

总结

强依赖大模型的指标：context_precision、context_recall、faithfulness、hallucination_score、answer_correctness、answer_relevancy（逻辑判断部分），核心依赖大模型的语义理解和逻辑推理能力。
轻依赖大模型的指标：context_relevancy、answer_similarity，主要通过语义向量相似度计算，大模型仅起辅助作用。
综合指标：ragas_score 基于其他指标的加权结果，无独立计算逻辑。

http://www.hskmm.com/?act=detail&tid=18153

相关文章：

服务器密码错误被锁定如何解决？

水翼式搅拌机推荐品牌/推荐厂家/优质供应商/哪家强？

100W QPS：亿级用户的社交关系如何设计？

坤驰科技携数据采集解决方案，亮相中国光纤传感大会

新手入门需要掌握多少种大模型才行

docker容器怎么查看最后一些行日志

MAC idea 环境变量设置失效

Docker 配置问题

【东北七大高校联合举办】第十一届机械制造技术与工程材料国际学术会议（ICMTEM 2025）

C#/.NET/.NET Core技术前沿周刊 | 第 55 期（2025年9.15-9.21） - 实践

2025年混凝搅拌机优质供应商推荐厂家/混凝搅拌机源头工厂/哪家强？

[vscode] 解决windows使用vscode连接linux的gbk_gb18030终端出现乱码问题

dify二开之组件调用关系

VirtualBox CentOS7共享文件夹设置

华三交换机Console密码忘记，破解密码

变压器磁芯的基础知识介绍-转载

dify二开之项目结构分析

datadome 主动异常

concurrenthashmap为什么get方法不需要加锁呢

Prometheus_basic_auth

dify二次开发之数据库表设计

美国股票市场数据API的完整对接指南，包含NYSE、NASDAQ等主要交易所的实时行情、历史数据、公司信息等核心功能

用宜家说明书的方式了解“快速排序”

深入理解 CSS 浮动：从原理到实战应用 - space

Winform程序中将datagridview导出到excel (推荐)

第二章Pycharm和Jupiter

微服务基础3-服务保护与分布式事务 - 详解