【AI论文】少即是多：基于微型网络的递归推理

【研究摘要】本文提出微型递归模型TRM，一种仅含2层网络（700万参数）的轻量级递归推理架构。实验表明，TRM在数独、迷宫及ARC-AGI测试中表现优异：Sudoku-Extreme准确率87.4%，ARC-AGI-1达45%，性能超越参数量大千倍的LLMs（如Gemini2.5Pro）。通过递归更新潜在状态和深度监督策略，TRM实现42层等效推理深度，较HRM模型提升32.4%准确率且训练成本减

东临碣石82

936人浏览 · 2025-10-16 07:00:00

东临碣石82 · 2025-10-16 07:00:00 发布

摘要：层次推理模型（Hierarchical Reasoning Model, HRM）是一种创新方法，它利用两个以不同频率递归运作的小型神经网络。这种受生物启发的模型在解决数独、迷宫和ARC-AGI等高难度谜题任务时，表现优于大型语言模型（LLMs），且仅通过在小规模数据（约1000个示例）上训练的小型模型（2700万参数）即达成此效果。HRM展示了利用小型网络解决复杂问题的巨大潜力，但其原理尚未完全明晰，且可能并非最优方案。为此，我们提出微型递归模型（Tiny Recursive Model, TRM），这是一种更为简洁的递归推理方法，仅使用一个仅含2层的微型网络，便实现了比HRM显著更高的泛化能力。TRM仅拥有700万参数，在ARC-AGI-1测试集上取得了45%的准确率，在ARC-AGI-2上取得了8%的准确率，其表现优于大多数大型语言模型（如Deepseek R1、o3-mini、Gemini 2.5 Pro），而参数数量却不到这些模型的0.01%。Huggingface链接：Paper page，论文链接：2510.04871

研究背景和目的

研究背景：

随着大型语言模型（LLMs）在自然语言处理任务中的广泛应用，尽管它们在多种任务上展现了强大的能力，但在处理复杂推理任务时仍面临挑战。

例如，在解决数学谜题（如数独）、迷宫路径规划以及抽象推理测试（如ARC-AGI）等任务上，LLMs的表现往往不尽如人意。这些任务要求模型具备高度的逻辑推理能力和问题解决能力，而传统的LLMs由于生成答案的自回归方式，容易因单个错误token导致整个答案失效。为了提高LLMs的可靠性，研究者们提出了多种方法，如Chain-of-Thought（CoT）和Test-Time Compute（TTC），但这些方法仍存在成本高、依赖高质量推理数据以及生成的推理过程可能错误等问题。

与此同时，递归推理作为一种模拟人类思考过程的方法，近年来受到广泛关注。

Hierarchical Reasoning Model (HRM)作为一种新型递归推理模型，通过两个小型神经网络在不同频率下递归推理，在复杂推理任务上取得了显著成绩。然而，HRM的复杂性和对固定点定理的依赖限制了其进一步优化和应用。因此，研究更高效、更简洁的递归推理模型成为迫切需求。

研究目的：

本研究旨在提出一种更简洁、更高效的递归推理模型——Tiny Recursive Model (TRM)，以解决复杂推理任务。

具体目标包括：

提高推理准确性：通过递归改进预测答案，提高在复杂推理任务上的准确性。
减少参数量：使用比HRM更小的网络，实现更高的参数效率。
简化模型结构：去除HRM中的复杂数学定理依赖和层次结构，简化模型设计和训练过程。
增强泛化能力：通过递归推理和深度监督，提升模型在未见数据上的泛化能力。

研究方法

为了实现上述研究目的，本研究采用了以下研究方法：

1. 模型设计：

提出了Tiny Recursive Model (TRM)，该模型仅包含一个两层的神经网络，通过递归更新潜在推理状态z和预测答案y来逐步改进答案。

TRM的核心思想是通过多次递归更新潜在推理状态z，然后根据当前的z和之前的答案y生成新的答案y'，从而逐步逼近正确答案。

2. 递归推理过程：

初始答案生成：模型首先生成一个初始的粗略猜测答案y。
潜在推理状态更新：通过递归更新潜在推理状态z，模型不断优化其推理逻辑。
答案修正：根据当前推理状态z和之前的答案y，模型生成新的答案y'。
循环迭代：上述过程最多可重复16次，每次迭代都使模型更接近正确且逻辑严密的解决方案。

3. 训练策略：

深度监督：在每个监督步中，模型不仅更新z，还更新答案y，通过多层次的路径传播梯度，显著缓解递归展开造成的梯度消失问题。
轻量级自适应计算时间：去除了HRM中的“继续损失”，仅保留是否继续的二元决策，避免了每步两次前向计算，使训练成本减半。
指数移动平均（EMA）：采用EMA平滑参数轨迹，显著提升泛化能力并稳定收敛。

4. 实验验证：

基准测试：在Sudoku-Extreme、Maze-Hard、ARC-AGI等基准测试集上评估模型性能。
对比实验：与HRM及其他同质架构模型进行对比，验证TRM的优势。
参数调优：通过调整递归次数n和监督步数T等参数，寻找最优模型配置。

研究结果

1. 模型性能提升：

TRM在多个复杂推理任务上显著优于HRM和传统LLMs。

例如，在Sudoku-Extreme任务上，TRM的测试准确率从HRM的55%提升至87.4%；在ARC-AGI-1和ARC-AGI-2上，TRM分别取得了45%和8%的准确率，远超大多数参数量大其千倍的LLMs。

2. 参数效率：

TRM仅用700万参数便实现了超越数十亿参数LLMs的性能。

例如，在Maze-Hard任务上，TRM（7M参数）以85.3%的准确率击败了参数规模大数百倍的DeepSeek-R1和Gemini 2.5 Pro。

3. 递归机制有效性：

通过消融实验验证，递归推理次数n和监督步数T对模型性能有显著影响。

最优配置下（如T=3, n=6），TRM实现了42层等效深度，远超HRM的384层等效深度，同时避免了固定点假设和隐函数定理的依赖。

4. 泛化能力增强：

在数据量极小的场景下（如Sudoku-Extreme仅1000训练样本），TRM通过深度监督和递归推理显著提升了泛化能力，避免了过拟合。

例如，在Sudoku-Extreme上，TRM的测试准确率比HRM高32.4%。

研究局限

尽管TRM在复杂推理任务上展现了显著优势，但本研究仍存在以下局限：

1. 数据依赖性：

TRM的性能高度依赖训练数据的质量和数量。

在小样本场景下，尽管TRM通过深度监督和递归推理提升了泛化能力，但在极端数据稀缺时，模型性能仍可能受限。

2. 任务特异性：

TRM在特定任务（如数独、迷宫）上表现优异，但在其他类型任务（如长文本生成、跨模态理解）上的有效性尚未充分验证。

未来研究需探索TRM在更广泛任务上的适用性。

3. 模型解释性：

尽管TRM通过递归推理提升了性能，但其内部推理过程仍缺乏透明性。

未来研究需进一步探索如何解释TRM的推理过程，提高模型的可解释性。

未来研究方向

针对上述局限，未来研究可从以下几个方面展开：

1. 更大规模模型的实验验证：

在未来研究中，进一步扩大模型规模，验证TRM在更大规模模型下的性能和效率优势。这将有助于推动TRM在实际应用中的广泛部署。

2. 更复杂任务场景的探索：

将TRM应用于更复杂的推理任务，如多步骤数学问题求解、自然语言推理等，验证其在真实场景中的有效性和实用性。通过与实际应用需求的紧密结合，推动TRM技术的不断发展和完善。

3. 跨模态混合架构研究：

随着多模态学习的兴起，未来研究需探索TRM在处理视频、音频等多模态数据时的应用。

通过结合不同模态的特定优势，构建更强大的多模态推理模型。

4. 针对不可见攻击的防御机制：

考虑到大型语言模型面临的安全挑战，未来研究需开发针对不可见攻击（如利用Unicode变体选择符的攻击）的防御机制。

通过结合模型内部表示分析和输出过滤等技术，提高TRM的安全性和鲁棒性。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插