自然语言处理(NLP)发展脉络
发展历史
- 1. 自然语言处理(NLP)简介
- 2. NLP 发展历程
- 📍 阶段 1:统计语言模型
- 📍 阶段 2:神经网络语言模型 (NNLM)
- 📍 阶段 3:预训练语言模型 (PLM)
- 📍 阶段 4:大语言模型 (LLM)
- 3. Transformer 架构的突破
- 4. 训练
- 4.1 训练与优化方法
- 4.1 常用评估方法
发展脉络:统计(用词频和概率预测下一个词) → 神经网络(神经网络学习词向量和上下文关系) → 预训练(在大规模语料上训练通用语言知识,再微调下游任务) → 大模型 (超大参数量(Billion+),支持零样本 / 少样本学习)
1. 自然语言处理(NLP)简介
- 通俗理解:NLP 就是让计算机“听懂”和“说人话”,既能理解我们写的文本,也能生成自然流畅的语言。例如:
- 手机输入法自动纠错或联想词
- 聊天机器人回答问题
- 机器翻译将英文翻成中文
- 正式定义:研究如何让计算机理解、生成和处理自然语言的学科。
- 常见应用:
- 文本分类:情感分析、主题分类
- 序列标注:命名实体识别 (NER)、词性标注 (POS)
- 序列到序列 -Seq2Seq:机器翻译、摘要生成
- 生成任务:对话、代码补全、写作辅助
- 检索与问答:搜索引擎、开放域问答
2. NLP 发展历程
📍 阶段 1:统计语言模型
- n-gram 模型:基于条件概率预测下一个词
- ✅ 简单直观
- ❌ 数据稀疏、无法处理长距离依赖
- 改进方法:平滑、回退
📍 阶段 2:神经网络语言模型 (NNLM)
- 核心思想:利用神经网络捕捉上下文语义
- 代表方法:
- NNLM:根据前 n-1 个词预测当前词
- Word2Vec:分布式词向量,捕捉语义相似性
- ELMo:双向 LSTM,上下文相关词表示
📍 阶段 3:预训练语言模型 (PLM)
-
核心思想:
- 在大规模语料上进行通用语言建模(预测下一个词 / 掩码词)
- 下游任务通过微调或迁移学习实现
-
关键概念:
- GPT:自回归 Transformer 模型,通过上文预测下一个词
- BERT:双向 Transformer,用于理解类任务
- 改良模型:ALBERT、RoBERTa、UNILM 等
-
关键概念:
- 提示(Prompting):通过输入文本引导模型完成任务
- 指令微调(Instruction Tuning):在大量“任务-指令-答案”数据上微调模型,提高执行自然语言指令能力
- API 调用:无需本地部署即可使用 GPT 系列模型
-
代表模型:GPT-1、BERT
📍 阶段 4:大语言模型 (LLM)
- 特点:
- 参数规模巨大(Billion 级别以上)
- 多任务能力,支持零样本 / 少样本学习
- 从任务定制走向通用 AI
- 代表模型:GPT-3 / ChatGPT / GPT-4、LLaMA、PaLM、Claude
- 总结:GPT 系列既是 PLM,也是 LLM 的代表
3. Transformer 架构的突破
- 提出:Attention is All You Need 注意力机制是全部(2017年由google的研究人员发表)
- 创新点:
- 自注意力机制(self-attention) → 捕捉长距离依赖
- 多头注意力(Multi-Head attention) → 并行计算,捕捉不同的语义关系,然后拼接。提升训练效率
- 位置编码(Positional Encoding)
Transformer 不像 RNN 有顺序,因此需要显式加入位置信息(用正弦/余弦函数)。 - 影响:成为 BERT、GPT、T5、ChatGPT 等基础架构
4. 训练
4.1 训练与优化方法
-
微调 (Fine-tuning)
在预训练模型基础上,用少量标注数据训练下游任务,使模型更适配特定应用。 -
提示学习 (Prompting / Prompt Engineering)
不修改模型参数,通过设计输入提示引导模型完成任务。例如:“将以下英文翻译成中文:…” -
指令微调 (Instruction Tuning)
用大量“任务 + 指令 + 答案”数据微调模型,让模型天生更懂指令。典型代表:InstructGPT、FLAN。 -
自监督学习 (Self-supervised Learning)
利用大规模无标注文本自动生成训练目标: -
掩码语言模型 - MLM:随机遮盖词语,预测被遮盖的词(BERT)
-
下一句预测 - NSP:判断两句话是否相邻(BERT 原始任务之一)
-
迁移学习 (Transfer Learning)
将在大语料上学到的知识迁移到新任务/新领域,即使目标数据很少,也能获得不错效果 -
模型压缩 (Model Compression)
减小模型规模,提高运行效率: - 知识蒸馏:大模型教师指导小模型学生
- 剪枝 - Pruning:去掉冗余参数和神经元
- 量化 - Quantization:用低精度数值存储权重
-
推理加速 (Inference Acceleration)
通过工程优化提升模型推理速度: - ONNX Runtime:跨平台高效推理框架
- TensorRT:NVIDIA GPU 加速库
4.1 常用评估方法
文本生成类
- BLEU:衡量生成文本与参考文本的 n-gram 重叠率,常用于机器翻译
- ROUGE:主要衡量摘要生成的召回率,统计参考文本和生成文本的重叠词或短语
- METEOR:结合精确匹配、词形变化和语义相似性,改进 BLEU 对语义的敏感度
- BERTScore:用 BERT 提取文本特征,计算生成文本和参考文本的语义相似度
- CIDEr / SPICE:常用于图像描述生成任务,衡量与参考描述的一致性
文本分类类
- Accuracy(准确率):预测正确样本占总样本的比例
- Precision(精确率):预测为正例中真正正例的比例
- Recall(召回率):所有正例中被正确预测的比例
- F1-score:精确率与召回率的调和平均值
- ROC-AUC:二分类任务中衡量模型区分能力的指标
信息检索 / 排序类
- MAP(Mean Average Precision):平均每个查询的精确率
- MRR(Mean Reciprocal Rank):第一个正确结果在结果列表中的倒数排名平均值
- NDCG(Normalized Discounted Cumulative Gain):考虑结果位置的重要性,对排序任务更合理
序列标注类
- F1-score:用于命名实体识别(NER)等任务
- Token-level Accuracy:按 token 的预测准确率
对话系统 / 问答
- 自动评估:
- BLEU、ROUGE、METEOR(生成式问答/对话)
- Exact Match(EM):答案完全匹配的比例
- F1-score:基于字符或词级别的精确召回结合
- 人工评估:
- Fluency(流畅度)、Coherence(连贯性)、Relevance(相关性)、Informativeness(信息量)
多模态任务
- CLIPScore:衡量文本描述与图像的语义匹配度
- R-precision / Recall@K:常用于图文检索
⚡ 提示:选择评估指标时要结合任务类型和实际应用目标,不同任务适用的指标可能完全不同。