当前位置：首页 > news >正文

LLM学习笔记DAY9

news 2025/10/23 18:41:00

大语言模型学习笔记

一、大语言模型的局限性

1.1 规划能力不足

示例：汉诺塔问题中步骤错误，缺乏校验与修正机制。
需引入规划策略与反思检查策略。

1.2 知识时效性与计算能力不足

示例：GPT-4回答“美国总统”错误，数值计算不准确。
需外部工具支持（如搜索引擎、计算器）。

1.3 缺乏记忆与身份一致性

重启后丢失历史对话与身份设定。
需记忆组件记录会话历史与中间结果。

二、基于大语言模型的规划

2.1 规划概述

将复杂任务分解为子任务，制定动作，获取反馈并调整。
组件：
- 任务规划器（LLM）
- 规划执行器
- 存储单元
- 工具模块

2.2 规划方案生成方式

（1）一次性生成

适用于简单任务，如菜谱生成、代码加速。
输出形式：自然语言或代码。

（2）迭代式生成（ReAct）

模拟人类“思考-行动”循环。
示例：查询与河北省接壤的省份面积。
问题：可能失败，需回溯策略。

2.3 反思与修正（Reflexion）

根据反馈修正错误步骤。
示例：第二轮规划中排除“直辖市”，成功找到正确答案。

三、基于大语言模型的智能体

3.1 智能体演进

规则/算法 → 强化学习 → 大语言模型驱动

3.2 智能体核心组件

规划模块：任务分解、反思、子目标设定
记忆模块：
- 长期记忆（用户画像、历史行为）
- 短期记忆（当前会话、上下文）
执行模块：执行规划动作（如观影、聊天）
工具模块：调用外部接口（如推荐系统、搜索引擎）

3.3 多智能体系统

通讯机制：协议、拓扑、内容（自然语言/代码）
协同机制：协作、竞争、协商
示例：
- WebGPT：浏览网络回答问题
- MetaGPT：多角色协作开发软件
- 《西部世界》沙盒：模拟人类日常行为

四、复杂推理与慢思考

4.1 思维链（Chain-of-Thought, CoT）

通过中间推理步骤提升答案正确率。
示例：长方形内最大正方形面积计算。

2. 慢思考/推理模型

代表模型：OpenAI o1、DeepSeek-R1、Kimi k1.5
特点：
- 输出长思维链（<think> + <answer>）
- 需训练时扩展与测试时扩展
- 输出长度与性能正相关

3. 慢思考训练方法

（1）基于RL的方法

使用可验证数据（数学、代码、科学问题）
奖励 = 准确率奖励 + 语言一致性奖励
示例：DeepSeek-R1-Zero 使用GRPO算法训练

（2）训练流程（以DeepSeek-R1为例）

冷启动SFT：少量示例微调
推理RL：强化学习提升推理能力
RFT & SFT：合成数据微调Base模型
全场景RL：兼顾推理与安全性

（3）Kimi k15 多模态推理

支持图文推理
使用课程采样、优先采样、长度惩罚
引入Long2Short压缩与模型融合

五、推理模型的影响与挑战

5.1 影响

自动化科研：如OpenAI Deep Research，可完成多步骤研究任务
编程能力：模型在竞争编程中排名迅速上升
产业应用：化学、语言学等复杂任务自动化

5.2 现有问题

（1）成本高

硬件要求高（如DeepSeek-R1需8张H100）
推理延迟大，部署困难

（2）控制不足

过度思考（overthinking）与思考不足（underthinking）
语言混杂问题

（3）安全问题

可能存在欺骗性输出、幻觉政策等风险

（4）开源模型尚未复现o3级别推理能力

查看全文

http://www.hskmm.com/?act=detail&tid=37544

OJ模拟面试3（异步判题架构）

Edge浏览器网页设置深色模式（仅搜索结果界面）

2025 年 AI 编程工具 TOP5 排名：谁在重新定义研发效率？

达梦数据库获取判断字段中的json数据中的值

2025 废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜：上海深城以专利技术破局，3 家企业凭场景适配登榜，助力异味治理升级

Web3 行业 Solidity 高级后端开发工程师岗位要求

API 搜索的下一代形态-Apipost智能搜索：只需用业务语言描述需求，就能精准定位目标接口！

2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备，专业高效！

2025拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能，高效稳定自动化解决方案

2025提升机/自动提升机厂家推荐垚林机械，高效稳定省心之选

二分图

2025不锈钢方形/消防/生活/保温水箱厂家推荐莞南节能，专业耐用品质保障

2025-10-23 DeepSeek R1本地部署（ollama）

python 异步调用语法

KAPE 0.8.3.0发布：数字取证工具新版本详解

第一！天翼云引领中国教育公有云市场

哇哦杯题解民间版

海上60公里，5G信号满格？这款神器让远航不再“失联”

2025除尘设备/脉冲除尘器厂家推荐东莞市百谊环保科技，专业高效净化解决方案

2025发电机/发电机组/柴油发电机/甲醇发电机组租赁厂家推荐新疆泓浩机电，专业维修保养服务保障

阿里云加持，《泡姆泡姆》让全球玩家畅享零延迟冒险

基于粒子群优化（PSO）算法的PID控制器参数整定

VScodeC语言结构体成员提示不全

大语言模型学习笔记

一、大语言模型的局限性

1.1 规划能力不足

1.2 知识时效性与计算能力不足

1.3 缺乏记忆与身份一致性

二、基于大语言模型的规划

2.1 规划概述

2.2 规划方案生成方式

（1）一次性生成

（2）迭代式生成（ReAct）

2.3 反思与修正（Reflexion）

三、基于大语言模型的智能体

3.1 智能体演进

3.2 智能体核心组件

3.3 多智能体系统

四、复杂推理与慢思考

4.1 思维链（Chain-of-Thought, CoT）

2. 慢思考/推理模型

3. 慢思考训练方法

（1）基于RL的方法

（2）训练流程（以DeepSeek-R1为例）

（3）Kimi k15 多模态推理

五、推理模型的影响与挑战

5.1 影响

5.2 现有问题

（1）成本高

（2）控制不足

（3）安全问题

（4）开源模型尚未复现o3级别推理能力

相关文章：