推理型大语言模型现在确实火了。这类模型的特点是会先对问题做充分思考,然后再给出答案,而不是直接回复。
虽然早期训练推理型 LLM 的方法多半被各家公司当作核心机密,但最近的DeepSeek-R1、DeepSeekMath、Kimi-k1.5 和 DAPO 这些项目都公开了相关流程。
这些方法让 LLM 在推理过程中生成更长的思维链(Chain-of-Thought,CoT)输出,推理效果因此得到提升。同时它们还引入了改进的强化学习算法,比如 GRPO 和 DAPO,这些算法是对 OpenAI 最初 PPO 方法的高效升级。
这篇文章会先介绍 GRPO(Group Relative Policy Optimization,组相对策略优化)的基本概念,这是目前训练推理型 LLM 最常用的强化学习算法之一。然后我们会动手写代码训练一个推理 LLM,在实践中理解整个流程。
https://avoid.overfit.cn/post/1506330de8e349eab552ec1000417a27