当前位置：首页 > news >正文

自然语言处理（NLP）发展脉络

news 2025/9/20 6:58:09

自然语言处理（NLP）发展脉络

发展历史

1. 自然语言处理（NLP）简介
2. NLP 发展历程

📍 阶段 1：统计语言模型
📍 阶段 2：神经网络语言模型 (NNLM)
📍 阶段 3：预训练语言模型 (PLM)
📍 阶段 4：大语言模型 (LLM)

3. Transformer 架构的突破
4. 训练

4.1 训练与优化方法
4.1 常用评估方法

发展脉络：统计（用词频和概率预测下一个词） → 神经网络（神经网络学习词向量和上下文关系） → 预训练（在大规模语料上训练通用语言知识，再微调下游任务） → 大模型 （超大参数量（Billion+），支持零样本 / 少样本学习）

1. 自然语言处理（NLP）简介

通俗理解：NLP 就是让计算机“听懂”和“说人话”，既能理解我们写的文本，也能生成自然流畅的语言。例如：

手机输入法自动纠错或联想词
聊天机器人回答问题
机器翻译将英文翻成中文

正式定义：研究如何让计算机理解、生成和处理自然语言的学科。
常见应用：

文本分类：情感分析、主题分类
序列标注：命名实体识别 (NER)、词性标注 (POS)
序列到序列 -Seq2Seq：机器翻译、摘要生成
生成任务：对话、代码补全、写作辅助
检索与问答：搜索引擎、开放域问答

2. NLP 发展历程

📍 阶段 1：统计语言模型

n-gram 模型：基于条件概率预测下一个词

✅ 简单直观
❌ 数据稀疏、无法处理长距离依赖

改进方法：平滑、回退

📍 阶段 2：神经网络语言模型 (NNLM)

核心思想：利用神经网络捕捉上下文语义
代表方法：

NNLM：根据前 n-1 个词预测当前词
Word2Vec：分布式词向量，捕捉语义相似性
ELMo：双向 LSTM，上下文相关词表示

📍 阶段 3：预训练语言模型 (PLM)

核心思想：

在大规模语料上进行通用语言建模（预测下一个词 / 掩码词）
下游任务通过微调或迁移学习实现

关键概念：

GPT：自回归 Transformer 模型，通过上文预测下一个词
BERT：双向 Transformer，用于理解类任务
改良模型：ALBERT、RoBERTa、UNILM 等

关键概念：

提示（Prompting）：通过输入文本引导模型完成任务
指令微调（Instruction Tuning）：在大量“任务-指令-答案”数据上微调模型，提高执行自然语言指令能力
API 调用：无需本地部署即可使用 GPT 系列模型

代表模型：GPT-1、BERT

📍 阶段 4：大语言模型 (LLM)

特点：

参数规模巨大（Billion 级别以上）
多任务能力，支持零样本 / 少样本学习
从任务定制走向通用 AI

代表模型：GPT-3 / ChatGPT / GPT-4、LLaMA、PaLM、Claude
总结：GPT 系列既是 PLM，也是 LLM 的代表

3. Transformer 架构的突破

提出：Attention is All You Need 注意力机制是全部(2017年由google的研究人员发表)
创新点：

自注意力机制（self-attention） → 捕捉长距离依赖
多头注意力（Multi-Head attention） → 并行计算，捕捉不同的语义关系，然后拼接。提升训练效率
位置编码（Positional Encoding）
Transformer 不像 RNN 有顺序，因此需要显式加入位置信息（用正弦/余弦函数）。

影响：成为 BERT、GPT、T5、ChatGPT 等基础架构

4. 训练

4.1 训练与优化方法

微调 (Fine-tuning)
在预训练模型基础上，用少量标注数据训练下游任务，使模型更适配特定应用。
提示学习 (Prompting / Prompt Engineering)
不修改模型参数，通过设计输入提示引导模型完成任务。例如：“将以下英文翻译成中文：…”
指令微调 (Instruction Tuning)
用大量“任务 + 指令 + 答案”数据微调模型，让模型天生更懂指令。典型代表：InstructGPT、FLAN。
自监督学习 (Self-supervised Learning)
利用大规模无标注文本自动生成训练目标：
掩码语言模型 - MLM：随机遮盖词语，预测被遮盖的词（BERT）
下一句预测 - NSP：判断两句话是否相邻（BERT 原始任务之一）
迁移学习 (Transfer Learning)
将在大语料上学到的知识迁移到新任务/新领域，即使目标数据很少，也能获得不错效果
模型压缩 (Model Compression)
减小模型规模，提高运行效率：

知识蒸馏：大模型教师指导小模型学生
剪枝 - Pruning：去掉冗余参数和神经元
量化 - Quantization：用低精度数值存储权重

推理加速 (Inference Acceleration)
通过工程优化提升模型推理速度：

ONNX Runtime：跨平台高效推理框架
TensorRT：NVIDIA GPU 加速库

4.1 常用评估方法

文本生成类

BLEU：衡量生成文本与参考文本的 n-gram 重叠率，常用于机器翻译
ROUGE：主要衡量摘要生成的召回率，统计参考文本和生成文本的重叠词或短语
METEOR：结合精确匹配、词形变化和语义相似性，改进 BLEU 对语义的敏感度
BERTScore：用 BERT 提取文本特征，计算生成文本和参考文本的语义相似度
CIDEr / SPICE：常用于图像描述生成任务，衡量与参考描述的一致性

文本分类类

Accuracy（准确率）：预测正确样本占总样本的比例
Precision（精确率）：预测为正例中真正正例的比例
Recall（召回率）：所有正例中被正确预测的比例
F1-score：精确率与召回率的调和平均值
ROC-AUC：二分类任务中衡量模型区分能力的指标

信息检索 / 排序类

MAP（Mean Average Precision）：平均每个查询的精确率
MRR（Mean Reciprocal Rank）：第一个正确结果在结果列表中的倒数排名平均值
NDCG（Normalized Discounted Cumulative Gain）：考虑结果位置的重要性，对排序任务更合理

序列标注类

F1-score：用于命名实体识别（NER）等任务
Token-level Accuracy：按 token 的预测准确率

对话系统 / 问答

自动评估：

BLEU、ROUGE、METEOR（生成式问答/对话）
Exact Match（EM）：答案完全匹配的比例
F1-score：基于字符或词级别的精确召回结合

人工评估：

Fluency（流畅度）、Coherence（连贯性）、Relevance（相关性）、Informativeness（信息量）

多模态任务

CLIPScore：衡量文本描述与图像的语义匹配度
R-precision / Recall@K：常用于图文检索

⚡ 提示：选择评估指标时要结合任务类型和实际应用目标，不同任务适用的指标可能完全不同。

http://www.hskmm.com/?act=detail&tid=294

相关文章：

错误报警：“该 CPU 或当前的库版本不支持数据类型”

redis各种数据类型

关于 cnpm 的安装

剖析“YOLO”哈希构造的安全隐患与正确替代方案

Charles实战秘籍：弱网模拟、Map Local/Remote、HTTPS抓包详解

BOE（京东方）“照亮成长路”公益项目走进富平县科技赋能教育树立可持续发展新标杆

9月23日周二《AI+企业IP获客联盟峰会》，相约东莞厚街富盈酒店

第一次作业自我介绍+软工5问

深度学习调参新思路：Hyperband早停机制提升搜索效率

K8S Ingress 和 Service的作用？

Nginx 配置详解：从基础到进阶

零成本搭建企业系统：五款免费低代码平台推荐

软件工程第一次作业-自我介绍

通过pip的配置文件，来永久设置国内源‌

软工第一次作业

.NET 单文件程序详解：从原理到实践 - C#混淆加密大师解包打包单文件程序

用夏普比例和卡玛比率评估基金的性价比

漏洞解析--CSRF

0828-今日热点列表 - jobleap4u.com

第一篇随笔

Rust/C/C++ 混合构建 - Buck2构建工具一探究竟

CF1404D Game of Pairs

Office支持终止：如何防止宏灾难

Linux运维-字符处理（1、文件查看）

UG NX保姆级下载图文安装教程+激活教程（UG NX 2506安装教程及激活教程）

Rust 环境搭建

软件第一次作业

Node-RED 究竟是否适合工业场景？

向量化与嵌入模型：RAG系统背后的隐形英雄