OPENHELIX:机器人操作的简短综述、实证分析和开源双-系统 VLA 模型(上)
25年5月来自西湖大学、浙大、西安交大和香港科大广州分校的论文“OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation”。双-系统 VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但目前尚缺乏足够的开源工作来进一步进行性能分析和
25年5月来自西湖大学、浙大、西安交大和香港科大广州分校的论文“OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation”。
双-系统 VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但目前尚缺乏足够的开源工作来进一步进行性能分析和优化。针对这一问题,本文将总结和比较现有双-系统架构的结构设计,并对现有双-系统架构的核心设计要素进行系统的实证评估,最终为后续探索提供一个低成本的开源模型。
双-系统 VLA
LCB [19] 率先采用双-系统 VLA 结构,而 DP-VLA 则首次引入了双-过程理论,为该架构的原理提供了拟人化的解释。双-过程理论 [7, 10, 16, 21] 将人类认知概念化为通过两个不同的系统运作:
- 系统 1 快速、自动、直观且无意识。
它运作起来毫不费力,并依靠启发式方法进行判断和决策。系统 1 负责即时反应,例如做出简单或常规的选择。系统 1 经常导致偏见和错误,因为它依赖于思维捷径,例如启发式方法,这在某些情况下可能有效,但也会导致系统性错误。在机器人领域,该系统与传统的轻量级策略网络非常相似,后者高效但通常针对特定任务。 - 系统 2 缓慢、深思熟虑、费力且有意识。
它涉及推理、逻辑和对证据的仔细评估。系统 2 在执行需要认知能力的任务时会发挥作用,例如解决复杂问题或做出深思熟虑的决策。系统 2 通常更准确,但需要更多的认知资源,并且在认知负荷高或注意力有限时也容易出错。在机器人技术中,该系统类似于 MLLM 和 VLA 等大规模模型,这些模型计算量很大,但具有卓越的泛化能力。 - 虽然两个系统并行运行,但它们更新信息的频率不同。
速度较慢的类系统 2 组件更新频率较低,负责基于高级表征做出更慎重的决策。相比之下,速度较快的类系统 1 组件更新频率较高,以快速生成实时机器人控制所需的低级动作。值得注意的是,慢速系统的信息容易受到时间延迟的影响。该架构通过同时实现高效的实时推理和保留大型模型的多模态推理能力来解决上述挑战。
下表是双-系统的方法比较:

双-系统 VLA 的关键设计
关键问题在于如何设计这两个系统的架构,并构建从较慢系统到较快系统的信息流,从而既能保留类系统 2 组件的优势,又能有效地引导类系统 1 组件执行机器人动作。实现这种微妙的平衡对于构建高性能且可泛化的机器人系统至关重要。如图所示,为了实现这一目标,需要解决几个核心问题:

- MLLM 的选择。不同的 VLA 场景对 MLLM 的要求各不相同。为了构建适用于机器人场景的模型,应该选择合适的 MLLM 模型。例如,Flower [18] 的基础模型在空间感知/低级视觉方面具有强大的能力,因此在各种任务中都达到了当前的 SOTA;MiniVLA [1] 选择 Qwen-VL 0.25B 作为其基础模型,以降低模型推理成本和负担。因此,在MLLM快速发展的时代,应该明确什么样的MLLM模型足够轻量,又足以完成机器人任务,这是一个亟待解决的问题。此外,是否有必要使用机器人数据进行预训练的MLLM仍然是一个悬而未决的问题。在广泛的机器人数据集上训练不仅可以缩小域差距,而且通过让模型接触更多的语言指令,可以使其在语言指令跟踪任务上表现出色,正如Robodual [5]的实验所证明的那样。
- 策略选择。小模型的选择争议相对较小,目前普遍认为基于DiT结构和Flow Matching结构的模型都能满足当前的需求。然而,随着CARP [8]、Dense Policy [20]等新策略模型以及其他新架构的引入,下游小模型也可能会出现新的设计。此外,与Robodual [5]类似,下游小模型是否需要更多模态信息,以及哪些模态信息对系统 1 至关重要,也是一个潜在的问题。
- 潜特征表示选择。潜 tokens 的选择是双-系统任务中最复杂的方面,亟待研究。先前的方法已显示出显著的差异。不仅需要考虑双-系统工作,还需要考虑单系统工作,例如[2, 3, 13]。对于DP-VLA [9],他们直接选择了MLLM大型模型的最后一层隐藏嵌入。同时,GR00T-N1 [2]从中间层中选择隐藏嵌入,认为中间层特征可能包含更多视觉信息并可减少推理时间。更进一步,Roboflamnigo [13]和HiRT [24]使用最后一层语言特征和视觉特征的最大池化作为下游条件。除了直接利用MLLM的隐藏嵌入之外,一些模型(例如LCB [19])还引入 token的概念,希望通过微调一个特殊的token来连接上下游,并取得了不错的效果。Robodual [5]对上述两种方法进行了进一步发展,它采用多个 token,同时加入了最后一层的语言特征作为潜特征表示。当然,在机器人领域之外,还有更多巧妙地利用隐状态的方法,例如Metaquery [17]和LEGO [12],它们采用了更为复杂的方法进行潜特征选择。总之,潜特征表示的选择,将是双-系统模型的一个重要研究重点,为下游动作生成模型探索更合适的潜特征。
- MLLM训练策略。关于如何训练MLLM,主要考虑的是能否在不损失模型泛化能力的同时,确保与下游任务良好地集成。目前主要的方法有冻结方法和微调方法,但探索是否有更好的微调技术仍然是一个有价值的研究方向。
- 策略训练策略。关于如何训练策略,主要考虑能否降低模型的训练成本。如果可以采用预训练的策略并进行微调,则可以大大减少整体训练时间。当然,如果从头开始训练,不同的优化目标是否会使模型收敛困难也是一个未知因素,有待进一步研究。
- 双-系统集成策略。关于集成策略,主要关注如何将潜信息作为条件嵌入到下游模型中。在 LCB [19] 中,作者演示使用 CLIP 损失来约束上游潜特征与原始文本 CLIP 嵌入相似,从而连接上下游组件。然而,这种方法明显限制了模型只能处理下游训练的情况,从而违背引入 MLLM 模型泛化能力的目的。此外,引入新嵌入时,上下游模型的维度差异不可避免,因此通常会在它们之间添加一个投影器。然而,如何训练这个投影器需要仔细考虑。在后续实验中,当下游策略是预训练策略时,在不训练MLLM的情况下预先对齐投影器变得至关重要。如果两者同时解冻并训练,模型训练将会崩溃。因此,双-系统集成策略至关重要。
- 双-系统异步策略。最后,双系统模型有异步策略。LCB [19]、HiRT [24] 和 Robodual [5] 采用了不同的异步方法,其中 LCB [19] 最为简单,使用同步训练但异步测试。理论上,上下游组件之间的推理频率差异可能会影响最终性能。然而,这并不完全准确——如果提供的上游特征一开始就不够有效,那么上下层之间的异步推理可能仅仅是一个伪需求。因此,需要更多的实验来验证这一点。
评估实验设置
模型选择。为了与 LCB [19] 保持一致,采用 LLaVA1.0 [14] 作为视觉语言模型 (MLLM)。为了消除不同策略架构造成的差异,所有后续实验均采用 3DDA [11] 作为统一的下游策略。潜表征的集成按照 LCB [19] 中介绍的方法实现。与 LCB [19] 一致,对于涉及异步设置的实验,采用同步训练和异步测试。
数据集处理。与 LCB [19] 在 token 前构建类似聊天的响应不同,直接在指令后连接一个 token。采用这种方法是因为尚未实现此功能。此外,即使不实现此功能,性能仍然令人满意。在未来的工作中解决类似聊天的数据处理问题。
环境。为了与非开源但已发表结果的模型进行比较,选择与它们相同的环境。为了与 LCB [19] 和 RoboDual [5] 保持一致,选择 CALVIN 环境作为核心对比仿真环境。
标准评估。借鉴前人的研究,主要在 ABC-D 场景下验证实验效果。为了快速评估实验结果,从标准 1000 次评估中选取前 100 次进行测试,以提高消融实验的测试效率。在最终评估表 8 中,将评估范围扩展至全集 1000 次,以提供更全面的实验结果。更难的评估。如图所示,在标准评估测试场景中,目标是静态的,给出的语言指令是标准的。然而,对偶系统本质上应该将大模型的语言泛化能力与小模型高频特性在动态场景下的优势结合起来。因此,在两种场景下进行额外的验证。

- CALVIN-E:对于语言指令泛化,用丰富的语言教学进行测试。
- CALVIN-D:对于动态场景测试,在抓取任务中,让物体在环境中以四种不同的方式移动,以检验模型在动态场景下的鲁棒性。
为什么不是单系统?
初步。事实上,双-系统的定义一直比较模糊,但自从建立CALVIN-D实验以来,之前的单系统工作(例如Roboflmanigo [13])在这种测试下会直接失败,因此后续实验并未在单系统上进行。
实验设置。具体的实验配置是在CALVIN-D上测试在标准ABC数据集上训练的模型,进行100次试验。“静态”条件代表标准物体不动的场景,“左”、“前”、“对角线”和“圆圈”代表四种不同的物体运动模式。结果如下表所示:

分析。RF [13]模型在CALVIN-D上的结果相当令人惊讶,因为它完全无法完成动态场景下的相应任务。造成这种性能观察结果的主要原因是,在测试阶段,RF 方法需要处理前六帧图像才能获得基于 LSTM 的动作推理所需的相应潜表示。虽然潜表示在训练期间通常保持稳定,但在测试阶段,由于动态场景中的物体运动,它们会发生变化。训练和测试条件之间的这种差异导致性能显著下降,最终导致动态环境中的成功率始终为零。尽管如此,使用 MLLM 的 RF 模型在简单任务上表现出极高的性能,并且比较小的 3DDA 模型表现出更高的鲁棒性。这凸显了使用 MLLM 作为系统“大脑”的重要性。
讨论:当然,这个结论可能并不完全严谨,因为尚未对 π0 [3] 和 GR00TN1 [2] 进行进一步测试。这些额外的实验将纳入未来的工作中。
双-系统训练策略
对于双-系统模型,主要的训练策略包含三个部分:如何训练低级策略、如何训练高级MLLM以及如何连接两者。后续实验将围绕这三个部分展开。
策略训练策略
初步。对于LCB,下游低级策略使用预训练的3DDA,而HiRT采用RT-1结构并从头开始训练。Robodual使用其自主设计的下游策略。撇开配置差异不谈,策略训练有两种范式:从头开始训练和基于预训练模型进行微调。
设置。为了公平比较,大型模型配置遵循LCB结构:LLaVA1.0主干网络,与 token连接,均使用CLIP Loss将 token与下游指令对齐。唯一的区别在于下游策略要么使用预训练的3DDA策略,要么使用从头训练的策略。具体结果如表所示。

分析:在下表中所示,用预训练策略可以提高性能,同时减少整体训练时间。因此,后续实验均基于预训练策略模型进行微调。

MLLM 训练策略
初步:对于 LCB、HiRT 和 Robodual,上游大型模型均进行微调。虽然 GR00TN1 [2] 不属于双-系统,但它通过采用冻结范式进行训练取得优异的效果。因此,对这两种方法都进行实验。
设置:为了公平比较,大型模型配置遵循 LCB 结构:LLaVA1.0 主干,与 token 连接,均使用 CLIP 损失将 token 与下游指令对齐。下游策略始终采用微调范式。在 MLLM 与策略模型的连接过程中,还引入是否包含 CLIP 损失作为变量。
分析:对于 MLLM 冻结的场景,添加或省略 CLIP 损失不会显著影响性能。这是因为 CLIP 损失本身旨在调整未改变的 MLLM 输出以适应下游小模型的输入,从而将性能差异降至最低。然而,当 MLLM 需要微调时,CLIP 损失的影响就会变得非常显著。如果没有 CLIP 损失的约束,小模型在条件和其他感知输入之间已经训练好的注意机制很容易被打乱,从而可能导致性能下降。
直观的假设:虽然引入 CLIP 损失使得整体模型性能得以提升,但这种方法本质上损害大模型固有的泛化能力。有没有办法在保持大模型参数不变的同时,仍然确保大模型能够与下游组件一起更新?
进一步的设置。如图所示,只改变 MLLM 的训练方法。具体来说,采用提示调优。在大模型的词汇表中添加了一个新的 token,并且只训练 lm-head 层,同时保持所有其他模型参数不变。这种方法本质上是在词汇表中训练一个只与下游任务相关的额外token,而不会改变MLLM模型固有的泛化能力。因此,理论上,它可以更好地确保双-系统之间的连接。

接下来,实验验证这一假设,如表所示:

进一步分析。对于即时调优范式,虽然在标准Calvin测试环境下的性能与其他训练范式相当,但在验证语言泛化的实验中存在显著差异。同样,在存在CLIP损失的前提下,即时调优结果的泛化能力远远超过微调和冻结方法。此外,在没有CLIP损失监督的情况下,泛化能力实际上有所提高,这充分说明了即时调优范式在训练大模型时,对改变大模型泛化能力的依赖最小。
双-系统集成策略
初步。基于以上实验,用预训练策略并对MLLM进行快速微调可获得最佳效果。然而,这仍然涉及如何连接组件的过程,因为上游和下游之间的语义差距可能很大。
设置。为了连接上游和下游组件,需要一个多层感知器 (MLP) 投影器。这里实现两种方法:首先,直接解冻上游和下游模型,并与MLP投影器联合训练它们。其次,首先冻结上游大模型,同时训练MLP投影器和下游小模型,然后解冻上游大模型进行联合训练。这两种方法的主要区别在于是否有单独的MLP投影器训练过程。结果如表所示。

分析。如果没有事先进行投影器预对齐,基于冻结、微调和快速微调方法连接上游和下游模型会直接失败。这证明了投影仪预对齐在连接过程中的重要性。当然,如果采用从头开始训练的方法进行下游策略,则不需要两阶段过程。
双-系统测试策略
初步。双系统模型的一个关键要素是需要在上下层之间实现异步控制。在LCB中,没有专门处理异步操作,而是采用同步训练,然后进行异步推理。在HiRT中,作者采用额外的缓冲区,在训练过程中也引入异步操作。对于Robodual,他们利用下层推理的动作实时替换上层的粗略动作,从而执行异步操作。本文主要验证第一种方法。
设置。在CALVIN-D上评估从1到60的不同异步数。步骤指的是单个MLLM推理步骤中动作策略的推理步骤。3DDA最长的环境步骤为60。
分析。无论大型模型推理之间的步骤数是多少,性能变化都非常相似。此外,即使在动态场景下,实验结果也保持一致。
直观假设:该结果表明当前的MLLM对当前环境的变化不敏感,这违反直觉。因此,需要明确究竟哪些信息从上层的潜在向量传递到了下层。
进一步设置:为了探究背后的原因,将动作 token 的潜嵌入映射到语义空间,并计算不同词汇的相似度,以分析这些来自MLLM的动作 tokens 传达的含义。实验涉及动态场景,其中蓝色块持续向左移动。结果如图所示。

进一步分析得到以下结论:
- 关于不同时间步长下与空间词汇的相似性,无论机械臂向左移动还是向右移动,“右”的概率始终高于“左”,而不同空间介词的概率随时间几乎保持不变。这表明动作 token 学习了一种保持不变且与环境变化无关的语义特征。“right”的概率高于“left”,这可能是因为“right”携带更多的语义信息;例如,“right”也可以表示正确性,这导致其概率始终较高。
- 对于不同时间步长的 Top 10 个相似词,潜嵌入主要编码指令中的目标对象、空间关系和动作语义,以及一些噪声。这意味着潜嵌入主要概括文本指令,并且对视觉信息的变化基本不敏感。换句话说,当前的训练方法并没有有效地利用 MLLM 的视觉推理能力。相反,MLLM 仅仅将指令的语义传递给了低级策略。
双-系统的MLLM是否足够?
初步。基于上述实验分析,目前通过潜tokens传递的信息不足以使下游模型有效地完成任务。因此,本文旨在探索更好地利用上游信息的方法。
设置。实验基于上述结论,下游模型采用微调,采用两阶段投影器训练方法,上游大型模型采用快速调整训练范式。然而,关于如何使用MLLM,创建三种变型:1. 标准MLLM;2. 从MLLM中移除视觉信息,将其纯粹视为LLM;3. 引入辅助损失,允许生成的潜 tokens 连接到额外的头部层以推断与动作相关的信息(位置或旋转)。结果如表所示。

分析。从实验结果可以看出,仅使用 LLM 的效果远逊于 MLLM,这体现了 MLLM 的固有功能,表明它并未沦为单纯的 LLM。当添加额外的辅助任务时,任务的成功率显著提升。这主要是因为额外的辅助任务迫使模型为了完成任务而捕捉更多的视觉信息,从而迫使模型关注纯粹的 MLLM 方法不会关注的任务。
。。。。。。待续。。。。。。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)