当前位置: 首页 > news >正文

LLM学习笔记DAY10

📘 大语言模型全面学习笔记

一、大语言模型评测体系

1.1 常见评测指标

任务类型 评测指标 说明
分类任务 精确率、召回率、F1 基于混淆矩阵计算
语言建模 困惑度(PPL) 衡量文本建模概率
文本生成 BLEU、ROUGE 衡量与参考文本的重叠度
问答任务 准确率、EM、F1 判断答案正确性
执行类任务 成功率、Pass@k 衡量代码或任务执行成功比例
偏好排序 Elo评分 通过成对比较动态评分

1.2 评测范式与方法

(1)基于评测基准

  • MMLU:多任务知识理解
  • BIG-Bench:204项挑战任务
  • HELM:全面评测框架
  • C-Eval:中文综合评测
  • GSM8K、MATH:数学推理

(2)基于人类评估

  • Chatbot Arena:众包成对比较 + Elo排名
  • HELM:人工评分摘要与虚假信息任务

(3)基于模型评估

  • AlpacaEval、MT-Bench:使用LLM替代人类评估

1.3 各能力维度评测

(1)语言生成

  • 语言建模:LAMBADA(预测段落最后一个词)
  • 机器翻译:WMT + BLEU
  • 文本摘要:XSum + ROUGE
  • 代码合成:HumanEval + Pass@k

(2)知识利用

  • 闭卷/开卷问答:Natural Questions
  • 知识补全:关系抽取任务
  • 主要问题
    • 幻象(内在/外在)
    • 知识时效性
    • 解决方案:RAG + 外部工具

(3)复杂推理

  • 知识推理:CommonsenseQA、PIQA
  • 符号推理:伪字母拼接、硬币翻转
  • 数学推理:GSM8K、MATH
  • 主要问题
    • 推理不一致性
    • 数值计算能力弱
    • 解决方案:CoT、外部计算器、过程反馈

(4)人类对齐

  • 有用性:完成任务能力
  • 诚实性:TruthfulQA
  • 无害性:CrowS-Pairs、Winogender

(5)环境交互

  • ALFWorld:文本模拟家庭环境
  • WebShop:在线购物交互
  • PaLM-SayCan:机器人指令执行

(6)工具使用

  • 搜索工具:HotpotQA
  • API调用:APIBench、Gorilla
  • 综合工具:ToolBench(16,000+ API)

二、大语言模型资源大全

2.1 公开模型检查点

模型系列 开发机构 特点 代表模型
LLaMA Meta 多尺寸、多模态 LLaMA-3.1-405B
ChatGLM 智谱AI & 清华 中英双语、长文本 GLM-4-9B
Falcon TII 首个180B开源 Falcon-180B
Baichuan 百川智能 中英双语、轻量 Baichuan2-13B
InternLM 上海AI Lab 全栈工具链 InternLM2-20B
Qwen 阿里巴巴 多尺寸、多模态 Qwen2.5-72B
DeepSeek 幻方AI MoE架构、推理强 DeepSeek-V3(671B)
Mixtral Mistral AI 8×7B MoE Mixtral 8x7B
Gemma Google 轻量开放 Gemma-2B/7B
MiniCPM 面壁智能 & 清华 小模型强性能 MiniCPM-2B

2.2 预训练数据集

(1)网页数据

  • 通用:Common Crawl、C4、RefinedWeb、RedPajama
  • 中文:ChineseWebText、WanJuan、WuDaoCorpora、SkyPile

(2)书籍与论文

  • BookCorpus、Project Gutenberg、arXiv、S2ORC

(3)代码数据

  • The Stack、StarCoder、BigQuery

(4)混合数据集

  • The Pile(800GB)、ROOTS(1.6TB)、Dolma(3T token)

2.3 微调数据集

(1)指令微调

  • P3:270+ NLP任务,2000+提示
  • FLAN:多任务指令 tuning
  • Self-Instruct:自动生成指令数据
  • Alpaca-52K:基于Self-Instruct构建

(2)对话数据

  • ShareGPT:用户与ChatGPT对话
  • OpenAssistant:多语言人工标注
  • Dolly:Databricks员工标注

(3)人类对齐数据

  • HH-RLHF:有用性+无害性
  • SHP:18个领域偏好数据
  • PKU-SafeRLHF:安全对齐
  • CValues:中文安全价值观

2.4 代码库资源

(1)Hugging Face生态

  • Transformers:模型架构统一接口
  • Datasets:数据集加载与处理
  • Accelerate:分布式训练简化

(2)训练优化库

  • DeepSpeed:ZeRO、混合精度、RLHF
  • Megatron-LM:模型并行、张量并行

三、规划与智能体技术

3.1 规划方法

  • 一次性生成:简单任务完整方案
  • 迭代生成(ReAct):思考-行动循环
  • 反思修正(Reflexion):基于反馈回溯优化

3.2 智能体架构

  • 规划模块:任务分解、反思、子目标
  • 记忆模块:长期/短期记忆
  • 执行模块:动作执行
  • 工具模块:外部API调用

3.3 多智能体系统

  • 通讯机制:协议、拓扑、内容格式
  • 协同机制:协作、竞争、协商
  • 示例
    • WebGPT:浏览网络回答问题
    • MetaGPT:多角色协作开发
    • 《西部世界》沙盒:人类行为模拟

四、复杂推理与慢思考

4.1 思维链(CoT)

  • 通过中间推理步骤提升答案正确率
  • 显著提升数学、符号推理能力

4.2 慢思考推理模型

  • 代表模型:OpenAI o1、DeepSeek-R1、Kimi k1.5
  • 训练方法
    • RL强化学习:GRPO算法,奖励=准确率+语言一致性
    • 课程学习:先易后难
    • 长度控制:惩罚过长输出,提升token效率

4.3 训练流程(以DeepSeek-R1为例)

  1. 冷启动SFT:少量示例微调
  2. 推理RL:在数学/代码任务上强化学习
  3. RFT & SFT:合成数据微调Base模型
  4. 全场景RL:兼顾推理与安全性

4.4 影响与挑战

  • 影响:自动化科研、编程能力突破
  • 挑战
    • 推理成本高(硬件要求高、延迟大)
    • 控制不足(overthinking/underthinking)
    • 语言混杂、安全问题

五、未来展望:AGI路径

  • ANI → AGI → ASI
  • 推理模型是迈向AGI的关键一步
  • 未来可能在科研、编程、决策等领域实现人类水平性能
http://www.hskmm.com/?act=detail&tid=37548

相关文章:

  • 2025工业冰水机/冷水机厂家推荐东莞市凯诺机械,高效制冷稳定运行
  • 2025小型低温/工业/风冷/一体式螺杆冷冻机厂家推荐:东莞凯诺机械专业制冷解决方案
  • 2025水冷螺杆/风冷螺杆冷水机厂家推荐东莞市凯诺机械,高效制冷稳定可靠
  • LLM学习笔记DAY9
  • OJ模拟面试3(异步判题架构)
  • Edge浏览器网页设置深色模式(仅搜索结果界面)
  • 2025 年 AI 编程工具 TOP5 排名:谁在重新定义研发效率?
  • noipd8t2 - Slayer
  • 【Go】go学习笔记
  • todolist
  • 利用排列组合法实现TOPN路径计算
  • 达梦数据库获取判断字段中的json数据中的值
  • 2025 废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:上海深城以专利技术破局,3 家企业凭场景适配登榜,助力异味治理升级
  • Web3 行业 Solidity 高级后端开发工程师岗位要求
  • API 搜索的下一代形态-Apipost智能搜索:只需用业务语言描述需求,就能精准定位目标接口!
  • 2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效!
  • 2025拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案
  • 2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南
  • 2025提升机/自动提升机厂家推荐垚林机械,高效稳定省心之选
  • 二分图
  • 2025不锈钢方形/消防/生活/保温水箱厂家推荐莞南节能,专业耐用品质保障
  • 2025-10-23 DeepSeek R1本地部署(ollama)
  • python 异步调用语法
  • KAPE 0.8.3.0发布:数字取证工具新版本详解
  • 第一!天翼云引领中国教育公有云市场
  • 哇哦杯题解民间版
  • 海上60公里,5G信号满格?这款神器让远航不再“失联”
  • 2025除尘设备/脉冲除尘器厂家推荐东莞市百谊环保科技,专业高效净化解决方案
  • 2025 年压滤机厂家最新推荐排行榜:隔膜 / 污泥 / 真空 / 板框 / 带式压滤机优质品牌权威指南
  • 2025发电机/发电机组/柴油发电机/甲醇发电机组租赁厂家推荐新疆泓浩机电,专业维修保养服务保障