01 论文概述
论文标题:Less is More: Recursive Reasoning with Tiny Networks
作者团队:三星AI实验室(Samsung SAIL Montréal)
发布时间:2025年9月6日
论文链接:https://arxiv.org/pdf/2510.04871
👉您可以跳转到 Lab4AI 平台上去阅读论文原文。
Lab4AI 大模型实验室论文阅读链接:
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656
👉 或者文末点击阅读原文,即可跳转至对应论文页面~
Lab4AI 提供 ✨AI 导读 和 AI 翻译 ✨ 工具
| 研究背景与动机
当前推理模型在解决需要多步、精确推理的难题时面临“大模型低效、小模型乏力”的矛盾。核心问题集中在大语言模型(LLMs)与层次推理模型(如 HRM)存在显著短板:大语言模型(LLMs)是自回归生成答案的,会因为单个错误导致推理的答案错误。而已有研究者认为依赖链式推理(CoT)和测试时计算(TTC)可以增加推理准确性,但这些方法需要高质量的数据且鲁棒性差。
在TRM之前,有研究者提出递归层次推理HRM,它模仿生物大脑,使用两个小神经网络在不同频率上进行递归思考。HRM虽然在推理任务上超越LLMs的小模型,但是它的设计复杂、依赖不动点定理且训练不稳定。TRM应运而生,旨在以更简单、高效的方式实现递归推理。
| TRM 是什么
10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“少即是多”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。
作者对HRM进行了简化和改进。TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs(如Gemini 2.5 Pro)。
| 核心架构
TRM的核心架构可以用以上图表示。TRM的工作流程可以结合图1和算法3直观理解:
- 初始化:输入问题、初始答案和潜在推理状态。
- 深度监督循环:对于每个训练样本,模型进行最多次改进步骤。
- 潜在递归:在每个监督步骤中,模型执行一个“深度递归”过程:
(1)无梯度预热:先进行次(如2次)完整的“潜在递归”,即先递归更新(次),再根据新的更新。此过程不计算梯度,目的是利用模型自身的计算能力初步优化答案。
(2)有梯度递归:最后进行1次有梯度的“潜在递归”,这次的反向传播会贯穿整个递归过程。
- 损失计算与停止判断:计算预测答案的损失以及停止概率的损失。如果停止概率超过阈值,则提前结束对该样本的深度监督循环。
- 梯度更新:执行反向传播和梯度更新,并将当前步的和截断梯度后作为下一步的初始值。
| 核心方法与创新思路
论文的贡献并非表面改进,而是从理论、架构、效率等层面重构递归推理模型。
(1)摒弃不动点定理,实现“完整递归反向传播”
HRM的存在一个问题:仅反向传播最后 2 步(1个+1个),依赖“不动点假设”,但实际未收敛,梯度计算不完整;
TRM针对这个问题,提出了解决方案:TRM不再假设收敛,而是直接通过整个递归过程(n次 latent reasoning + 1次 answer refinement)进行反向传播。为了在深度监督中利用无梯度计算进行“预热”,它先进行T-1次无梯度递归,再进行1次有梯度的递归。这彻底避开了IFT的理论争议,并带来了巨大的性能提升。
(2)重构 Latent 变量,无需分层与生物解释
作者提出了一个更自然的解释:其实就是当前答案的嵌入表示,而是一个纯粹的中间推理状态。因此,TRM将其重命名为(答案)和(推理状态)。这种解释明确了为什么需要两个特征:用于记住当前解决方案,用于进行链式推理。
(3)单网络替代双网络,参数规模减半
既然更新和更新的任务区别仅在于输入中是否包含问题,TRM使用一个共享的微小网络来同时完成这两项任务。
TRM用单个2层网络同时实现“更新(推理)”与 “更新(解优化)”,通过“输入是否包含” 区分任务:
更新z时:输入为(需结合问题x优化推理);
更新y时:输入为(无需,仅基于推理优化解);
(4)少即是多”的规模控制
作者发现将网络深度从4层减少到2层,同时按比例增加递归次数以保持总计算量,能显著提升泛化性能。这凸显了在小数据场景下,避免过拟合比增加模型容量更重要。
(5)无注意力架构用于固定短语长度的任务
对于固定且较小的上下文(如9x9数独),TRM用应用于序列维度的MLP取代了自注意力机制,灵感来自MLP-Mixer。这在数独任务上带来了巨大提升,但在上下文较大的任务(如30x30网格)上,自注意力仍更有效。
(6)简化 ACT 机制,消除额外前向传播
TRM移除了需要额外前向传播的Q-learning“继续”损失,只保留一个基于答案正确性的二值交叉熵“停止”损失。
(7)引入 EMA,抑制小数据集过拟合
HRM在小数据集(如 1K 样本的 Sudoku-Extreme)上易过拟合,训练后期准确率骤降。为了在小型数据集上稳定训练并防止过拟合,TRM采用了指数移动平均(EMA),权重更新时平滑参数(EMA decay=0.999),减少权重波动。
| 实验设计与结果分析
论文在数独、迷宫、ARC-AGI-1/2四个基准上的实验结果非常令人印象深刻:
ü TRM(7M参数)全面超越了HRM(27M参数),例如在ARC-AGI-2上将性能从5.0%提升至7.8%。
ü TRM大幅超越了众多参数量巨大的LLMs,证明了其解决复杂推理问题的巨大潜力。
这些结果强有力地支持了论文的核心理念:对于某些需要系统化推理的、数据稀缺的任务,一个参数极少但能够进行深度递归计算的模型,可能比一个参数庞大但推理路径短的模型更有效。
02 论文原文阅读
您可以跳转到 Lab4AI 平台上去阅读论文原文。
👉Lab4AI 大模型实验室论文阅读链接:
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656
👉文末点击阅读原文,即可跳转至对应论文页面~
▼ AI 翻译——对照阅读
▼ AI 导读——获取核心信息
- Lab4AI.cn提供免费的AI 翻译和AI 导读工具辅助论文阅读;
- 支持投稿复现,动手复现感兴趣的论文;
- 论文复现完成后,您可基于您的思路和想法,开启论文创新。
Lab4AI.cn 来送礼啦~
✅ 注册有礼,注册即送 30 元代金券
https://www.lab4ai.cn/register?utm_source=jssq_bky立即体验
✅ 入群有礼,入群即送 20 元代金券
👇
本文由 AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!