当前位置: 首页 > news >正文

RAGAS大模型评估框架

一、AGAs评估

RAGAs (Retrieval-Augmented Generation Assessment) 是一个框架,可以帮助快速评估RAG系统的性能,为了评估 RAG 系统,RAGAs 需要以下信息:

question:用户输入的问题。
answer:从 RAG 系统生成的答案(由LLM给出)。
contexts:根据用户的问题从外部知识源检索的上下文即与问题相关的文档。
ground_truths: 人类提供的基于问题的真实(正确)答案。 这是唯一的需要人类提供的信息。

二、评估指标

RAGAS提供了10种核心计算指标,包括检索质量/生成质量/事实一致性

检索质量相关指标

1. context_precision(上下文精确性)

  • 底层逻辑:衡量检索到的上下文是否均为回答问题所必需(过滤冗余信息)。
  • 计算方式:
    1. 大模型将每条上下文与问题、答案对比,判断其是否「必要」(即移除后会降低答案质量)。
    2. 计算公式:必要上下文数量 / 总检索上下文数量
  • 大模型作用:负责判断单条上下文的「必要性」,需理解上下文对回答的贡献度。

2. context_recall(上下文召回率)

  • 底层逻辑:评估检索到的上下文是否包含回答问题所需的全部关键信息。
  • 计算方式:
    1. 大模型从真实答案(ground truth)中提取「关键信息点」(如核心事实、实体、逻辑关系)。
    2. 检查这些信息点是否出现在检索到的上下文中。
    3. 计算公式:被检索到的关键信息点数量 / 所有必要关键信息点数量
  • 大模型作用:提取关键信息点并匹配上下文,需具备信息抽取和逻辑比对能力。

3. context_relevancy(上下文相关性)

  • 底层逻辑:衡量检索到的上下文与问题的语义关联度。
  • 计算方式:
    1. 对每条上下文,通过语义模型(如 Sentence-BERT)计算与问题的向量相似度(余弦相似度)。
    2. 取所有上下文相似度的平均值。
  • 大模型作用:主要依赖轻量语义模型(非大模型),但部分实现会用大模型辅助判断「主题匹配度」。

4. context_entity_recall(上下文实体召回率)

  • 底层逻辑:评估检索到的上下文中包含的关键实体是否完整。
  • 计算方式:
    1. 大模型从真实答案中提取「核心实体」(如人名、术语、事件名)。
    2. 统计这些实体在检索上下文中的出现比例。
    3. 计算公式:检索到的关键实体数量 / 所有必要关键实体数量
  • 大模型作用:负责实体识别和匹配,需理解实体在上下文中的语义等价性(如同义词、缩写)。

 

生成质量相关指标

5. answer_relevancy(答案相关性)

  • 底层逻辑:衡量答案与问题的关联程度(避免答非所问)。
  • 计算方式:
    1. 大模型直接判断答案是否「直接回应问题核心」,是否包含无关信息。
    2. 辅助计算答案与问题的语义向量相似度(如用 Sentence-BERT)。
    3. 综合两者给出 0~1 分数。
  • 大模型作用:主导逻辑判断,需理解问题意图与答案的匹配度。

6. answer_similarity(答案相似度)

  • 底层逻辑:评估生成答案与真实答案的语义相似性。
  • 计算方式:
    1. 将答案与真实答案转换为语义向量(如用 Sentence-BERT)。
    2. 计算向量间的余弦相似度(范围 0~1)。
  • 大模型作用:依赖轻量语义模型,大模型仅在复杂场景(如长文本)辅助优化相似度计算。

7. answer_correctness(答案正确性)

  • 底层逻辑:评估答案与真实答案的事实匹配程度(支持部分正确)。
  • 计算方式:
    1. 大模型将答案与真实答案拆解为「事实性陈述」。
    2. 逐一比对陈述的一致性(完全匹配、部分匹配、不匹配)。
    3. 按匹配比例加权计算得分(完全匹配权重最高)。
  • 大模型作用:负责陈述拆解和匹配判断,需理解事实的部分等价性(如同义句)。

 

事实一致性相关指标

8. faithfulness(忠实性)

  • 底层逻辑:评估答案是否完全基于检索到的上下文(无编造信息)。
  • 计算方式:
    1. 大模型将答案拆解为多个「事实性陈述」。
    2. 逐一验证每个陈述是否能从上下文中找到明确依据。
    3. 计算公式:有依据的陈述数量 / 总陈述数量
  • 大模型作用:核心依赖大模型的逻辑推理能力,需判断陈述与上下文的因果关系。

9. hallucination_score(幻觉评分)

  • 底层逻辑:量化答案中「编造信息」的比例(与 faithfulness 互补)。
  • 计算方式:
    1. 大模型识别答案中所有「未在上下文中出现的事实性陈述」(即幻觉)。
    2. 计算公式:幻觉陈述数量 / 总陈述数量
  • 大模型作用:需精确区分「上下文存在的信息」与「模型编造的信息」,对语义理解要求极高。

 

综合指标

10. ragas_score(RAGAS 综合得分)

  • 底层逻辑:综合上述指标,反映 RAG 系统的整体性能。
  • 计算方式:
    1. 对所选指标(如 context_precision、faithfulness、answer_relevancy 等)进行标准化(0~1 范围)。
    2. 按预设权重(可自定义)加权求和,得到最终综合分(0~1)。
  • 大模型作用:不直接参与计算,但其对各子指标的评分结果直接影响综合分。

总结

  • 强依赖大模型的指标:context_precision、context_recall、faithfulness、hallucination_score、answer_correctness、answer_relevancy(逻辑判断部分),核心依赖大模型的语义理解和逻辑推理能力。
  • 轻依赖大模型的指标:context_relevancy、answer_similarity,主要通过语义向量相似度计算,大模型仅起辅助作用。
  • 综合指标:ragas_score 基于其他指标的加权结果,无独立计算逻辑。

 

 

 

http://www.hskmm.com/?act=detail&tid=18153

相关文章:

  • 服务器密码错误被锁定如何解决?
  • 螺纹偏弱
  • 水翼式搅拌机推荐品牌/推荐厂家/优质供应商/哪家强?
  • 100W QPS:亿级用户的社交关系如何设计?
  • 坤驰科技携数据采集解决方案,亮相中国光纤传感大会
  • 新手入门需要掌握多少种大模型才行
  • docker容器怎么查看最后一些行日志
  • MAC idea 环境变量设置失效
  • Docker 配置问题
  • 【东北七大高校联合举办】第十一届机械制造技术与工程材料国际学术会议(ICMTEM 2025)
  • C#/.NET/.NET Core技术前沿周刊 | 第 55 期(2025年9.15-9.21) - 实践
  • 2025年混凝搅拌机优质供应商推荐厂家/混凝搅拌机源头工厂/哪家强?
  • [vscode] 解决windows使用vscode连接linux的gbk_gb18030终端出现乱码问题
  • dify二开之组件调用关系
  • VirtualBox CentOS7共享文件夹设置
  • 马棕榈油
  • 华三交换机Console密码忘记,破解密码
  • 变压器磁芯的基础知识介绍-转载
  • dify二开之项目结构分析
  • datadome 主动异常
  • concurrenthashmap为什么get方法不需要加锁呢
  • Prometheus_basic_auth
  • dify二次开发之数据库表设计
  • 美国股票市场数据API的完整对接指南,包含NYSE、NASDAQ等主要交易所的实时行情、历史数据、公司信息等核心功能
  • 用宜家说明书的方式了解“快速排序”
  • JAVA变量
  • 深入理解 CSS 浮动:从原理到实战应用​ - space
  • Winform程序中将datagridview导出到excel (推荐)
  • 第二章Pycharm和Jupiter
  • 微服务基础3-服务保护与分布式事务 - 详解