当前位置: 首页 > news >正文

LLM学习笔记DAY9

大语言模型学习笔记

一、大语言模型的局限性

1.1 规划能力不足

  • 示例:汉诺塔问题中步骤错误,缺乏校验与修正机制。
  • 需引入规划策略反思检查策略

1.2 知识时效性与计算能力不足

  • 示例:GPT-4回答“美国总统”错误,数值计算不准确。
  • 外部工具支持(如搜索引擎、计算器)。

1.3 缺乏记忆与身份一致性

  • 重启后丢失历史对话与身份设定。
  • 记忆组件记录会话历史与中间结果。

二、基于大语言模型的规划

2.1 规划概述

  • 将复杂任务分解为子任务,制定动作,获取反馈并调整。
  • 组件:
    • 任务规划器(LLM)
    • 规划执行器
    • 存储单元
    • 工具模块
      image-20251022132830418

2.2 规划方案生成方式

(1)一次性生成

  • 适用于简单任务,如菜谱生成、代码加速。
  • 输出形式:自然语言或代码。

(2)迭代式生成(ReAct)

  • 模拟人类“思考-行动”循环。
  • 示例:查询与河北省接壤的省份面积。
  • 问题:可能失败,需回溯策略

2.3 反思与修正(Reflexion)

  • 根据反馈修正错误步骤。
  • 示例:第二轮规划中排除“直辖市”,成功找到正确答案。

三、基于大语言模型的智能体

3.1 智能体演进

  • 规则/算法 → 强化学习 → 大语言模型驱动

3.2 智能体核心组件

  • 规划模块:任务分解、反思、子目标设定
  • 记忆模块
    • 长期记忆(用户画像、历史行为)
    • 短期记忆(当前会话、上下文)
  • 执行模块:执行规划动作(如观影、聊天)
  • 工具模块:调用外部接口(如推荐系统、搜索引擎)

3.3 多智能体系统

  • 通讯机制:协议、拓扑、内容(自然语言/代码)
  • 协同机制:协作、竞争、协商
  • 示例:
    • WebGPT:浏览网络回答问题
    • MetaGPT:多角色协作开发软件
    • 《西部世界》沙盒:模拟人类日常行为

四、复杂推理与慢思考

4.1 思维链(Chain-of-Thought, CoT)

  • 通过中间推理步骤提升答案正确率。
  • 示例:长方形内最大正方形面积计算。

2. 慢思考/推理模型

  • 代表模型:OpenAI o1DeepSeek-R1Kimi k1.5
  • 特点:
    • 输出长思维链(<think> + <answer>
    • 训练时扩展测试时扩展
    • 输出长度与性能正相关

3. 慢思考训练方法

(1)基于RL的方法

  • 使用可验证数据(数学、代码、科学问题)
  • 奖励 = 准确率奖励 + 语言一致性奖励
  • 示例:DeepSeek-R1-Zero 使用GRPO算法训练

(2)训练流程(以DeepSeek-R1为例)

  1. 冷启动SFT:少量示例微调
  2. 推理RL:强化学习提升推理能力
  3. RFT & SFT:合成数据微调Base模型
  4. 全场景RL:兼顾推理与安全性

(3)Kimi k15 多模态推理

  • 支持图文推理
  • 使用课程采样、优先采样、长度惩罚
  • 引入Long2Short压缩与模型融合

五、推理模型的影响与挑战

5.1 影响

  • 自动化科研:如OpenAI Deep Research,可完成多步骤研究任务
  • 编程能力:模型在竞争编程中排名迅速上升
  • 产业应用:化学、语言学等复杂任务自动化

5.2 现有问题

(1)成本高

  • 硬件要求高(如DeepSeek-R1需8张H100)
  • 推理延迟大,部署困难

(2)控制不足

  • 过度思考(overthinking)与思考不足(underthinking)
  • 语言混杂问题

(3)安全问题

  • 可能存在欺骗性输出幻觉政策等风险

(4)开源模型尚未复现o3级别推理能力

http://www.hskmm.com/?act=detail&tid=37544

相关文章:

  • OJ模拟面试3(异步判题架构)
  • Edge浏览器网页设置深色模式(仅搜索结果界面)
  • 2025 年 AI 编程工具 TOP5 排名:谁在重新定义研发效率?
  • noipd8t2 - Slayer
  • 【Go】go学习笔记
  • todolist
  • 利用排列组合法实现TOPN路径计算
  • 达梦数据库获取判断字段中的json数据中的值
  • 2025 废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:上海深城以专利技术破局,3 家企业凭场景适配登榜,助力异味治理升级
  • Web3 行业 Solidity 高级后端开发工程师岗位要求
  • API 搜索的下一代形态-Apipost智能搜索:只需用业务语言描述需求,就能精准定位目标接口!
  • 2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效!
  • 2025拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案
  • 2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南
  • 2025提升机/自动提升机厂家推荐垚林机械,高效稳定省心之选
  • 二分图
  • 2025不锈钢方形/消防/生活/保温水箱厂家推荐莞南节能,专业耐用品质保障
  • 2025-10-23 DeepSeek R1本地部署(ollama)
  • python 异步调用语法
  • KAPE 0.8.3.0发布:数字取证工具新版本详解
  • 第一!天翼云引领中国教育公有云市场
  • 哇哦杯题解民间版
  • 海上60公里,5G信号满格?这款神器让远航不再“失联”
  • 2025除尘设备/脉冲除尘器厂家推荐东莞市百谊环保科技,专业高效净化解决方案
  • 2025 年压滤机厂家最新推荐排行榜:隔膜 / 污泥 / 真空 / 板框 / 带式压滤机优质品牌权威指南
  • 2025发电机/发电机组/柴油发电机/甲醇发电机组租赁厂家推荐新疆泓浩机电,专业维修保养服务保障
  • 2025 年氮化硅陶瓷球生产厂家最新推荐榜:高精度高耐磨产品优选,国内优质企业全面剖析
  • 阿里云加持,《泡姆泡姆》让全球玩家畅享零延迟冒险
  • 基于粒子群优化(PSO)算法的PID控制器参数整定
  • VScodeC语言结构体成员提示不全