📘 大语言模型全面学习笔记
一、大语言模型评测体系
1.1 常见评测指标
任务类型 |
评测指标 |
说明 |
分类任务 |
精确率、召回率、F1 |
基于混淆矩阵计算 |
语言建模 |
困惑度(PPL) |
衡量文本建模概率 |
文本生成 |
BLEU、ROUGE |
衡量与参考文本的重叠度 |
问答任务 |
准确率、EM、F1 |
判断答案正确性 |
执行类任务 |
成功率、Pass@k |
衡量代码或任务执行成功比例 |
偏好排序 |
Elo评分 |
通过成对比较动态评分 |
1.2 评测范式与方法
(1)基于评测基准
- MMLU:多任务知识理解
- BIG-Bench:204项挑战任务
- HELM:全面评测框架
- C-Eval:中文综合评测
- GSM8K、MATH:数学推理
(2)基于人类评估
- Chatbot Arena:众包成对比较 + Elo排名
- HELM:人工评分摘要与虚假信息任务
(3)基于模型评估
- AlpacaEval、MT-Bench:使用LLM替代人类评估
1.3 各能力维度评测
(1)语言生成
- 语言建模:LAMBADA(预测段落最后一个词)
- 机器翻译:WMT + BLEU
- 文本摘要:XSum + ROUGE
- 代码合成:HumanEval + Pass@k
(2)知识利用
- 闭卷/开卷问答:Natural Questions
- 知识补全:关系抽取任务
- 主要问题:
- 幻象(内在/外在)
- 知识时效性
- 解决方案:RAG + 外部工具
(3)复杂推理
- 知识推理:CommonsenseQA、PIQA
- 符号推理:伪字母拼接、硬币翻转
- 数学推理:GSM8K、MATH
- 主要问题:
- 推理不一致性
- 数值计算能力弱
- 解决方案:CoT、外部计算器、过程反馈
(4)人类对齐
- 有用性:完成任务能力
- 诚实性:TruthfulQA
- 无害性:CrowS-Pairs、Winogender
(5)环境交互
- ALFWorld:文本模拟家庭环境
- WebShop:在线购物交互
- PaLM-SayCan:机器人指令执行
(6)工具使用
- 搜索工具:HotpotQA
- API调用:APIBench、Gorilla
- 综合工具:ToolBench(16,000+ API)
二、大语言模型资源大全
2.1 公开模型检查点
模型系列 |
开发机构 |
特点 |
代表模型 |
LLaMA |
Meta |
多尺寸、多模态 |
LLaMA-3.1-405B |
ChatGLM |
智谱AI & 清华 |
中英双语、长文本 |
GLM-4-9B |
Falcon |
TII |
首个180B开源 |
Falcon-180B |
Baichuan |
百川智能 |
中英双语、轻量 |
Baichuan2-13B |
InternLM |
上海AI Lab |
全栈工具链 |
InternLM2-20B |
Qwen |
阿里巴巴 |
多尺寸、多模态 |
Qwen2.5-72B |
DeepSeek |
幻方AI |
MoE架构、推理强 |
DeepSeek-V3(671B) |
Mixtral |
Mistral AI |
8×7B MoE |
Mixtral 8x7B |
Gemma |
Google |
轻量开放 |
Gemma-2B/7B |
MiniCPM |
面壁智能 & 清华 |
小模型强性能 |
MiniCPM-2B |
2.2 预训练数据集
(1)网页数据
- 通用:Common Crawl、C4、RefinedWeb、RedPajama
- 中文:ChineseWebText、WanJuan、WuDaoCorpora、SkyPile
(2)书籍与论文
- BookCorpus、Project Gutenberg、arXiv、S2ORC
(3)代码数据
- The Stack、StarCoder、BigQuery
(4)混合数据集
- The Pile(800GB)、ROOTS(1.6TB)、Dolma(3T token)
2.3 微调数据集
(1)指令微调
- P3:270+ NLP任务,2000+提示
- FLAN:多任务指令 tuning
- Self-Instruct:自动生成指令数据
- Alpaca-52K:基于Self-Instruct构建
(2)对话数据
- ShareGPT:用户与ChatGPT对话
- OpenAssistant:多语言人工标注
- Dolly:Databricks员工标注
(3)人类对齐数据
- HH-RLHF:有用性+无害性
- SHP:18个领域偏好数据
- PKU-SafeRLHF:安全对齐
- CValues:中文安全价值观
2.4 代码库资源
(1)Hugging Face生态
- Transformers:模型架构统一接口
- Datasets:数据集加载与处理
- Accelerate:分布式训练简化
(2)训练优化库
- DeepSpeed:ZeRO、混合精度、RLHF
- Megatron-LM:模型并行、张量并行
三、规划与智能体技术
3.1 规划方法
- 一次性生成:简单任务完整方案
- 迭代生成(ReAct):思考-行动循环
- 反思修正(Reflexion):基于反馈回溯优化
3.2 智能体架构
- 规划模块:任务分解、反思、子目标
- 记忆模块:长期/短期记忆
- 执行模块:动作执行
- 工具模块:外部API调用
3.3 多智能体系统
- 通讯机制:协议、拓扑、内容格式
- 协同机制:协作、竞争、协商
- 示例:
- WebGPT:浏览网络回答问题
- MetaGPT:多角色协作开发
- 《西部世界》沙盒:人类行为模拟
四、复杂推理与慢思考
4.1 思维链(CoT)
- 通过中间推理步骤提升答案正确率
- 显著提升数学、符号推理能力
4.2 慢思考推理模型
- 代表模型:OpenAI o1、DeepSeek-R1、Kimi k1.5
- 训练方法:
- RL强化学习:GRPO算法,奖励=准确率+语言一致性
- 课程学习:先易后难
- 长度控制:惩罚过长输出,提升token效率
4.3 训练流程(以DeepSeek-R1为例)
- 冷启动SFT:少量示例微调
- 推理RL:在数学/代码任务上强化学习
- RFT & SFT:合成数据微调Base模型
- 全场景RL:兼顾推理与安全性
4.4 影响与挑战
- 影响:自动化科研、编程能力突破
- 挑战:
- 推理成本高(硬件要求高、延迟大)
- 控制不足(overthinking/underthinking)
- 语言混杂、安全问题
五、未来展望:AGI路径
- ANI → AGI → ASI
- 推理模型是迈向AGI的关键一步
- 未来可能在科研、编程、决策等领域实现人类水平性能