摘要:层次推理模型(Hierarchical Reasoning Model, HRM)是一种创新方法,它利用两个以不同频率递归运作的小型神经网络。这种受生物启发的模型在解决数独、迷宫和ARC-AGI等高难度谜题任务时,表现优于大型语言模型(LLMs),且仅通过在小规模数据(约1000个示例)上训练的小型模型(2700万参数)即达成此效果。HRM展示了利用小型网络解决复杂问题的巨大潜力,但其原理尚未完全明晰,且可能并非最优方案。为此,我们提出微型递归模型(Tiny Recursive Model, TRM),这是一种更为简洁的递归推理方法,仅使用一个仅含2层的微型网络,便实现了比HRM显著更高的泛化能力。TRM仅拥有700万参数,在ARC-AGI-1测试集上取得了45%的准确率,在ARC-AGI-2上取得了8%的准确率,其表现优于大多数大型语言模型(如Deepseek R1、o3-mini、Gemini 2.5 Pro),而参数数量却不到这些模型的0.01%。Huggingface链接:Paper page,论文链接:2510.04871

研究背景和目的

研究背景

随着大型语言模型(LLMs)在自然语言处理任务中的广泛应用,尽管它们在多种任务上展现了强大的能力,但在处理复杂推理任务时仍面临挑战。

例如,在解决数学谜题(如数独)、迷宫路径规划以及抽象推理测试(如ARC-AGI)等任务上,LLMs的表现往往不尽如人意。这些任务要求模型具备高度的逻辑推理能力和问题解决能力,而传统的LLMs由于生成答案的自回归方式,容易因单个错误token导致整个答案失效。为了提高LLMs的可靠性,研究者们提出了多种方法,如Chain-of-Thought(CoT)和Test-Time Compute(TTC),但这些方法仍存在成本高、依赖高质量推理数据以及生成的推理过程可能错误等问题。

与此同时,递归推理作为一种模拟人类思考过程的方法,近年来受到广泛关注。

Hierarchical Reasoning Model (HRM)作为一种新型递归推理模型,通过两个小型神经网络在不同频率下递归推理,在复杂推理任务上取得了显著成绩。然而,HRM的复杂性和对固定点定理的依赖限制了其进一步优化和应用。因此,研究更高效、更简洁的递归推理模型成为迫切需求。

研究目的

本研究旨在提出一种更简洁、更高效的递归推理模型——Tiny Recursive Model (TRM),以解决复杂推理任务。

具体目标包括:

  1. 提高推理准确性:通过递归改进预测答案,提高在复杂推理任务上的准确性。
  2. 减少参数量:使用比HRM更小的网络,实现更高的参数效率。
  3. 简化模型结构:去除HRM中的复杂数学定理依赖和层次结构,简化模型设计和训练过程。
  4. 增强泛化能力:通过递归推理和深度监督,提升模型在未见数据上的泛化能力。

研究方法

为了实现上述研究目的,本研究采用了以下研究方法:

1. 模型设计

提出了Tiny Recursive Model (TRM),该模型仅包含一个两层的神经网络,通过递归更新潜在推理状态z和预测答案y来逐步改进答案。

TRM的核心思想是通过多次递归更新潜在推理状态z,然后根据当前的z和之前的答案y生成新的答案y',从而逐步逼近正确答案。

2. 递归推理过程

  • 初始答案生成:模型首先生成一个初始的粗略猜测答案y。
  • 潜在推理状态更新:通过递归更新潜在推理状态z,模型不断优化其推理逻辑。
  • 答案修正:根据当前推理状态z和之前的答案y,模型生成新的答案y'。
  • 循环迭代:上述过程最多可重复16次,每次迭代都使模型更接近正确且逻辑严密的解决方案。

3. 训练策略

  • 深度监督:在每个监督步中,模型不仅更新z,还更新答案y,通过多层次的路径传播梯度,显著缓解递归展开造成的梯度消失问题。
  • 轻量级自适应计算时间:去除了HRM中的“继续损失”,仅保留是否继续的二元决策,避免了每步两次前向计算,使训练成本减半。
  • 指数移动平均(EMA):采用EMA平滑参数轨迹,显著提升泛化能力并稳定收敛。

4. 实验验证

  • 基准测试:在Sudoku-Extreme、Maze-Hard、ARC-AGI等基准测试集上评估模型性能。
  • 对比实验:与HRM及其他同质架构模型进行对比,验证TRM的优势。
  • 参数调优:通过调整递归次数n和监督步数T等参数,寻找最优模型配置。

研究结果

1. 模型性能提升

TRM在多个复杂推理任务上显著优于HRM和传统LLMs。

例如,在Sudoku-Extreme任务上,TRM的测试准确率从HRM的55%提升至87.4%;在ARC-AGI-1和ARC-AGI-2上,TRM分别取得了45%和8%的准确率,远超大多数参数量大其千倍的LLMs。

2. 参数效率

TRM仅用700万参数便实现了超越数十亿参数LLMs的性能。

例如,在Maze-Hard任务上,TRM(7M参数)以85.3%的准确率击败了参数规模大数百倍的DeepSeek-R1和Gemini 2.5 Pro。

3. 递归机制有效性

通过消融实验验证,递归推理次数n和监督步数T对模型性能有显著影响。

最优配置下(如T=3, n=6),TRM实现了42层等效深度,远超HRM的384层等效深度,同时避免了固定点假设和隐函数定理的依赖。

4. 泛化能力增强

在数据量极小的场景下(如Sudoku-Extreme仅1000训练样本),TRM通过深度监督和递归推理显著提升了泛化能力,避免了过拟合。

例如,在Sudoku-Extreme上,TRM的测试准确率比HRM高32.4%。

研究局限

尽管TRM在复杂推理任务上展现了显著优势,但本研究仍存在以下局限:

1. 数据依赖性

TRM的性能高度依赖训练数据的质量和数量。

在小样本场景下,尽管TRM通过深度监督和递归推理提升了泛化能力,但在极端数据稀缺时,模型性能仍可能受限。

2. 任务特异性

TRM在特定任务(如数独、迷宫)上表现优异,但在其他类型任务(如长文本生成、跨模态理解)上的有效性尚未充分验证。

未来研究需探索TRM在更广泛任务上的适用性。

3. 模型解释性

尽管TRM通过递归推理提升了性能,但其内部推理过程仍缺乏透明性。

未来研究需进一步探索如何解释TRM的推理过程,提高模型的可解释性。

未来研究方向

针对上述局限,未来研究可从以下几个方面展开:

1. 更大规模模型的实验验证

在未来研究中,进一步扩大模型规模,验证TRM在更大规模模型下的性能和效率优势。这将有助于推动TRM在实际应用中的广泛部署。

2. 更复杂任务场景的探索

将TRM应用于更复杂的推理任务,如多步骤数学问题求解、自然语言推理等,验证其在真实场景中的有效性和实用性。通过与实际应用需求的紧密结合,推动TRM技术的不断发展和完善。

3. 跨模态混合架构研究

随着多模态学习的兴起,未来研究需探索TRM在处理视频、音频等多模态数据时的应用。

通过结合不同模态的特定优势,构建更强大的多模态推理模型。

4. 针对不可见攻击的防御机制

考虑到大型语言模型面临的安全挑战,未来研究需开发针对不可见攻击(如利用Unicode变体选择符的攻击)的防御机制。

通过结合模型内部表示分析和输出过滤等技术,提高TRM的安全性和鲁棒性。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐