检索增强生成(RAG)已成为构建生成式 AI 应用的主流架构,企业选择它主要原本是可以用自有数据约束模型输出,使答案更准确、可更新且更贴合业务场景。RAG 的效果在很大程度上取决于检索到的上下文质量——提升效果的常用手段包括合理切分文本块(chunking)、选用合适的嵌入模型与采用稳健的检索策略。嵌入(embeddings)是这一流程的核心:它将词、句与文档映射到向量空间,在该空间中语义关系变为可度量的数学关系;若嵌入选型不当,会带来检索噪声导致模型的输出不准确。所以本文将说明嵌入的基本原理与重要性、列出选型时的关键考量,并对典型模型与适用场景给出实用建议,帮助你为 RAG 系统挑选既高效又稳健的嵌入方案。
什么是嵌入?
嵌入是对语言中含义与模式的数值化表示。这些数字帮助系统找到与问题或主题高度相关的信息。这些嵌入由嵌入模型生成。嵌入模型可以将词、图像、文档,甚至声音,转换为一串称为向量的数字。
你可能在大语言模型语境下了解过嵌入,但嵌入的历史其实更悠久。
目前,大多数嵌入都由语言模型创建。与给每个 token 或词分配静态向量不同,语言模型会创建上下文化的词向量,让词/句子/片段在不同上下文下拥有不同表示。这些向量随后可被其他系统用于各类任务。
https://avoid.overfit.cn/post/27f128bfa34442e299acf8f400e236a4