当前位置: 首页 > news >正文

7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

01 论文概述

1.png

论文标题:Less is More: Recursive Reasoning with Tiny Networks

作者团队:三星AI实验室(Samsung SAIL Montréal)

发布时间:2025年9月6日

论文链接:https://arxiv.org/pdf/2510.04871

👉您可以跳转到 Lab4AI 平台上去阅读论文原文。
Lab4AI 大模型实验室论文阅读链接:
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656

👉 或者文末点击阅读原文,即可跳转至对应论文页面~
2.png

Lab4AI 提供 ✨AI 导读 和 AI 翻译 ✨ 工具

| 研究背景与动机

当前推理模型在解决需要多步、精确推理的难题时面临“大模型低效、小模型乏力”的矛盾。核心问题集中在大语言模型(LLMs)与层次推理模型(如 HRM)存在显著短板:大语言模型(LLMs)是自回归生成答案的,会因为单个错误导致推理的答案错误。而已有研究者认为依赖链式推理(CoT)和测试时计算(TTC)可以增加推理准确性,但这些方法需要高质量的数据且鲁棒性差。

在TRM之前,有研究者提出递归层次推理HRM,它模仿生物大脑,使用两个小神经网络在不同频率上进行递归思考。HRM虽然在推理任务上超越LLMs的小模型,但是它的设计复杂、依赖不动点定理且训练不稳定。TRM应运而生,旨在以更简单、高效的方式实现递归推理。

| TRM 是什么

10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“​少即是多​”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。

作者对HRM进行了简化和改进。TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs(如Gemini 2.5 Pro)。

| 核心架构

3.png

TRM的核心架构可以用以上图表示。TRM的工作流程可以结合图1和算法3直观理解:

  1. 初始化:输入问题、初始答案和潜在推理状态。
  2. 深度监督循环:对于每个训练样本,模型进行最多次改进步骤。
  3. 潜在递归:在每个监督步骤中,模型执行一个“深度递归”过程:

(1)无梯度预热:先进行次(如2次)完整的“潜在递归”,即先递归更新(次),再根据新的更新。此过程不计算梯度,目的是利用模型自身的计算能力初步优化答案。

(2)有梯度递归:最后进行1次有梯度的“潜在递归”,这次的反向传播会贯穿整个递归过程。

  1. 损失计算与停止判断:计算预测答案的损失以及停止概率的损失。如果停止概率超过阈值,则提前结束对该样本的深度监督循环。
  2. 梯度更新:执行反向传播和梯度更新,并将当前步的和截断梯度后作为下一步的初始值。

| 核心方法与创新思路

论文的贡献并非表面改进,而是从理论、架构、效率等层面重构递归推理模型。

​(1)​摒弃不动点定理,实现“完整递归反向传播”

HRM的存在一个问题:仅反向传播最后 2 步(1个+1个),依赖“不动点假设”,但实际未收敛,梯度计算不完整;

TRM针对这个问题,提出了解决方案:TRM不再假设收敛,而是直接通过整个递归过程(n次 latent reasoning + 1次 answer refinement)进行反向传播。为了在深度监督中利用无梯度计算进行“预热”,它先进行T-1次无梯度递归,再进行1次有梯度的递归。这彻底避开了IFT的理论争议,并带来了巨大的性能提升。

​(2)​重构 Latent ​ 变量,无需分层与生物解释

作者提出了一个更自然的解释:其实就是当前答案的嵌入表示,而是一个纯粹的中间推理状态。因此,TRM将其重命名为(答案)和(推理状态)。这种解释明确了为什么需要两个特征:用于记住当前解决方案,用于进行链式推理。

​(3)​单网络替代双网络,参数规模减半

既然更新和更新的任务区别仅在于输入中是否包含问题,TRM使用一个共享的微小网络来同时完成这两项任务。

TRM用单个2层网络同时实现“更新(推理)”与 “更新(解优化)”,通过“输入是否包含” 区分任务:

更新z时:输入为(需结合问题x优化推理);

更新y时:输入为(无需,仅基于推理优化解);

​(4)​少即是多”的规模控制

作者发现将网络深度从4层减少到2层,同时按比例增加递归次数以保持总计算量,能显著提升泛化性能。这凸显了在小数据场景下,避免过拟合比增加模型容量更重要。

​(5)​无注意力架构用于固定短语长度的任务

对于固定且较小的上下文(如9x9数独),TRM用应用于序列维度的MLP取代了自注意力机制,灵感来自MLP-Mixer。这在数独任务上带来了巨大提升,但在上下文较大的任务(如30x30网格)上,自注意力仍更有效。

6​)​简化 ACT ​机制,消除额外前向传播

TRM移除了需要额外前向传播的Q-learning“继续”损失,只保留一个基于答案正确性的二值交叉熵“停止”损失。

​(7)引入 EMA​,抑制小数据集过拟合

HRM在小数据集(如 1K 样本的 Sudoku-Extreme)上易过拟合,训练后期准确率骤降。为了在小型数据集上稳定训练并防止过拟合,TRM采用了指数移动平均(EMA),权重更新时平滑参数(EMA decay=0.999),减少权重波动。

| 实验设计与结果分析

论文在数独、迷宫、ARC-AGI-1/2四个基准上的实验结果非常令人印象深刻:

ü TRM(7M参数)全面超越了HRM(27M参数),例如在ARC-AGI-2上将性能从5.0%提升至7.8%。

ü TRM大幅超越了众多参数量巨大的LLMs,证明了其解决复杂推理问题的巨大潜力。

这些结果强有力地支持了论文的核心理念:对于某些需要系统化推理的、数据稀缺的任务,一个参数极少但能够进行深度递归计算的模型,可能比一个参数庞大但推理路径短的模型更有效。

02 论文原文阅读

您可以跳转到 Lab4AI 平台上去阅读论文原文。

👉Lab4AI 大模型实验室论文阅读链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656

👉文末点击阅读原文,即可跳转至对应论文页面~
4.png

▼ AI 翻译——对照阅读
5.png

▼ AI 导读——获取核心信息
6.png

  • Lab4AI.cn提供免费的AI 翻译和AI 导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。
    Lab4AI.cn 来送礼啦~

✅ 注册有礼,注册即送 30 元代金券

https://www.lab4ai.cn/register?utm_source=jssq_bky立即体验

✅ 入群有礼,入群即送 20 元代金券

👇
群.jpg

本文由 AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!

http://www.hskmm.com/?act=detail&tid=32380

相关文章:

  • 如何获取百度地图API的密钥以及调用百度地图api
  • 神器 iotdebug
  • 2025 护眼灯生产厂家最新推荐榜:精选资深与新锐品牌,深度解析生产实力与市场口碑
  • 【IEEE出版|快至3-4个月EI检索】第五届电力系统与能源互联网国际学术会议(PoSEI 2025)
  • 2025年通风天窗厂家最新权威推荐榜:屋顶通风器/排烟天窗/通风气楼/顺坡气楼,涵盖10A/1型/TC5A/TC12B/屋脊通风天窗专业选购指南
  • 251016
  • 微软智能体框架(Microsoft Agent Framework)介绍
  • 制造业能源管理新范式:MyEMS 在工业园区的落地实践
  • 氛围灯动态屏保取色方案
  • uml图和数据流图
  • 复盘:如何用Coze+Kimi,搭建一个能自动分析财报的“金融助理”?
  • 折腾笔记:免费用上 Claude Code 的两个方案
  • 2025 年最新金蝶云服务商代理机构权威推荐排行榜:聚焦铂金伙伴技术实力与万级客户口碑,上海金蝶云最新推荐优质公司
  • 探索 Markdown 的奇妙世界
  • 创建一个scale为0的矩阵
  • 可视化图解算法64:哈希表基础
  • 2025 防火/模压/瓦楞/大跨距/热镀锌/热浸锌/不锈钢/光伏/铝合金/锌铝镁/电缆桥架推荐榜:河北百著金属 5 星领跑,适配工业 / 建筑 / 通讯多场景线缆防护
  • 2025全球球形环氢硼聚变/“玄龙-50U”氢硼聚变厂家推荐榜单:探索清洁能源的未来方向
  • SqlServer Arithmetic overflow error converting expression to data type int
  • 医疗公有云市场第一!
  • 2025手持光谱仪/光谱分析仪/便携式光谱仪、矿石/元素分析仪、合金/金属/不锈钢/铝合金、贵金属、三元催化、赛普斯、IF光谱仪推荐榜
  • DC-1靶机通关
  • CSS复习
  • 长视频理解与生成技术突破
  • 27 LCA模拟赛3T3 三等分的数组 题解
  • 26 LCA模拟赛3T2 连边 题解
  • 28 S2模拟赛T2 开会council 题解
  • 25 LCA模拟赛3T1 ROI 2012马赛克 题解
  • 实验记录2025/10/14
  • 个人微信开发框架