Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」：子任务标注数据训练前者VLM，且三阶段训练后者VLA

摘要：本文系统解读了星海图提出的G0双系统VLA模型及其配套的Galaxea开放世界数据集。G0采用双系统架构：系统2（G0-VLM）负责多模态规划，系统1（G0-VLA）执行精确动作操作。配套数据集包含500小时真实场景数据，覆盖50个场景150项任务，采用统一机器人实体采集确保一致性。研究提出了三阶段训练课程，并通过实验验证了单一实体预训练的重要性。与现有模型（如π0.5）相比，G0在开放世界

v_JULY_v

3065人浏览 · 2025-08-14 17:04:03

v_JULY_v · 2025-08-14 17:04:03 发布

前言

截止目前，我博客内已经对PI官方推出的所有具身模型都做了深入且细致的解读，具体如下所示

π0
涉及对其原理的解读、lerobot pi0代码的解析、openpi官方代码的解析，以及我司对其的微调
FAST
Hi Robot
详见《Hi Robot——大脑加强版的π0：基于「VLM的高层推理+ VLA低层任务执行」的复杂指令跟随及交互式反馈》
π0.5
详见《π0.5——离散化token自回归训练，推理时则用连续动作表示，且加强推理(同一个模型中先高层拆解出子任务，后低层执行子任务)》
π0.5的KI改进版
实时动作分块RTC

这个π0系列是我博客内关于具身方面的系列文章中：影响力最大的前TOP 3，更是或促进、或启发了国内外诸多模型的提出与改进

且也推动了具身在各个场景层面的落地，包括我司『七月在线』做了一系列科研复现中，也微调过openpi——详见《π0的微调——如何基于各种开源数据集、以及私有数据集微调openpi(含我司七月的微调实践及openpi在国产臂上的部署)》

效果还不错(至少在特定任务上，效果好于原装π0，故超越π0 并不是一件很玄乎的事：不要被一些媒体带偏，未来一年，国内外会有越来越多或基于π0、或不基于π0，推出超越π0的模型)

前几天，网上看到星海图提出了G0，当看到：“其将多模态规划的视觉-语言模型（VLM）与细粒度执行的视觉-语言-动作（VLA）模型相结合”，我第一反应便想到了上面提到的「Hi Robot」，妥妥的Hi Robot开源版

其对应的论文为：Galaxea Open-World Dataset andG0 Dual-System VLA Model
作者及各自的分工如下
a) Dataset operation
Tao Jiang, Jianning Cui, Xiao Liu
b) Policy training and evaluation
Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Shuiqi Cheng, JianningCui, Xiao Liu, Tao Jiang
c) Project supervision
Hang Zhao, Huazhe Xu, Jiyang Gao
其GitHub地址为：github.com/OpenGalaxea/G0

G0官方说，未来几周会开源，为示对其开源的respect——开源是具身模型公司造影响力最好的方式，不要小瞧这个影响力，影响力大融资越好拿(且很有利于招人)，当然了我司七月在时机合适时，也会提出自己的模型，本文特解读下，也顺带帮G0宣传下

更新：截止到25年9月下旬，以下部分

Galaxea Open-World Dataset

G0-VLA pretrained model weights

G0-VLA real-robot inference code

G0-VLA fine-tuning code

均已开源

更何况，我们一直以来都是：交付一个个B端客户订单的同时，始终保持对国内外最新/前沿论文的解读与探索，博客内的一篇篇论文/开源，对我司落地工作有启发，我司也越来越并行『科研与落地』了

第一部分 G0双系统VLA模型

1.1 引言、相关工作、预备知识

1.1.1 引言：提出了Galaxea Open-World数据集和双系统框架G0

视觉-语言-动作（VLA）模型已成为推动机器人自主感知、推理和执行现实世界复杂任务的关键范式

尽管该领域取得了显著进展，但由于大规模、高质量、开放世界的机器人数据稀缺，仍存在重大瓶颈。以 Open-X Embodiment [1] 为代表的现有数据集，主要受限于任务的真实性不足以及环境丰富性不够。这些局限性削弱了所训练模型在面对多样化真实世界场景时的泛化能力
针对这一挑战，作者提出了Galaxea Open-World Dataset，这是一个面向移动操作的、广泛且精心策划的真实世界开放数据集
Galaxea Open-World Dataset包含500小时高保真数据，这些数据系统性地采集自真实世界中人类生活和工作的场景，涵盖了50个不同场景中的150多项独特任务
独特之处在于，Galaxea Open-World Dataset始终采用同一机器人实体进行采集，从而确保了数据的一致性和可靠性
为什么这么做呢，他们宣称，他们构建了一个严格的基准测试，涵盖了如桌面操作、设备操作以及在常规和小样本学习环境下的长时序铺床等任务。实验结果表明，他们高质量的数据集以及所提出的预训练策略能够有效提升双系统的性能。值得注意的是，当预训练平台与目标机器人之间存在较大的实体差异时，跨实体预训练的优势会减弱，甚至可能导致VLA模型性能下降，这突显了所提出的单一实体预训练阶段的重要性

总之，全面的数据筛选和精确的语言标注进一步丰富了该数据集，为移动操作方法的基准测试提供了有力支持
PS，发表下个人看法，我july个人觉得，各有各的优劣，目前没有绝对的好或坏

此外，作为对数据集的补充，他们提出了G0——一个双系统框架。G0利用系统2（G0-VLM）进行通用的多模态规划，并指导系统1（G0-VLA）执行精确的动作操作。这两个模型以不同的频率异步运行，从而实现高效的训练和实际部署

且值得注意的是，他们为G0-VLA提出了三阶段训练课程：

在大规模无标签数据集上进行跨形态预训练，以获取通用的世界知识先验
在他们的Galaxea开放世界数据集上进行单一形态预训练，以专注于目标平台的感知-动作对
在高质量任务演示上进行后训练，以精通特定复杂技能

1.1.2 相关工作

第一，对于双系统设计

他们的 G0 模型架构建立在机器人领域分层规划的基础之上

早期的方法如任务与运动规划（TAMP）[2]，通常将高层任务规划与低层运动控制解耦。近年来，多模态大模型（VLMs）的出现为这一范式带来了新的活力。例如，SayCan [3] 展示了预训练的大型语言模型（LLM）可以作为高层目标的零样本规划器
受此启发，研究社区开始采用基于 Kahneman 系统一（快速、反应型）与系统二（深思熟虑、规划型）理论的双系统框架 [4-Thinking, fast and slow]
这种将深思熟虑的规划与反应式控制分离的分层方法，构成了G0工作的基础

第二，VLA 作为系统1的执行器

VLA模型的兴起为构建通用型机器人策略提供了一种强大的范式。在双系统框架下，这些VLA非常适合作为系统1的执行器：即一种反应式策略，将即时的感官输入和简单指令转化为低层次的机器人控制动作 [5, 6, 7]
这些VLA模型中的动作生成模块采用了两种主流范式：自回归生成 [8,9,10,11] 和扩散生成 [12,13,14]

自回归模型在迁移预训练VLMs的知识方面表现出色，但速度较慢[11,15]；而扩散模型则具有更高的吞吐量，但可能会削弱VLM的原有能力 [16-π0.5]

目前，一些研究通过更为复杂的架构设计在这两种生成范式之间实现了平衡 [17-Hybridvla]。他们的工作还为 System 1 组件实现了一个 VLA，采用了两种类似于 π0.5[16] 的训练方法，以充分利用两种生成范式的优势

第三，对于将 VLM 用作 System 2 规划器

虽然 System 1 的 VLA 负责反应式控制，但它需要高层次的指导来确定行动方向。这一指导性角色由 System 2 规划器承担
在现代机器人系统中，这一规划器通常由大型 VLM [18,19,20] 实现。VLM 作为深思熟虑的“大脑”，负责理解用户复杂、开放式的指令，并将其分解为一系列更简单的子任务，随后交由 System 1 执行器执行
作者的研究主要聚焦于系统性探究这一 System 2 组件。具体而言，他们探索构建和微调 VLM 规划器的有效方法。且以人工和闭源模型为基线，与在他们专有数据集上微调的开源 VLM 进行系统性对比，旨在为业界提供实用的参考

第四，对于大规模操作数据集

VLA模型的进步根本上依赖于大规模、多样化且高保真的机器人操作数据集

目前的主流研究在不同方向上应对了这一挑战。例如，BridgeDataV2 [21] 和 DROID [22] 等工作专注于在特定机器人平台上进行大规模数据采集。这些研究成功展示了数据规模扩大的性能提升，但单一平台的设置本质上限制了任务和场景的多样性

与此同时，Open X-Embodiment [1] 通过整合来自众多不同来源的数据，极大地扩展了机体和任务的多样性。然而，这种异构数据的聚合带来了数据质量、标注标准以及环境上下文方面的不一致，给模型训练引入了潜在的噪声

尽管这些基础数据集在规模和多样性方面做出了重要贡献，但它们主要是在受控或人工环境中采集的
最近的研究，如 RoboMIND [23] 和 AgiBot world [24]，虽然在数据集规模和任务复杂性方面取得了突破，但依然受限于这一采集方式。这种数据采集方法导致了显著的领域差距，削弱了训练模型在非结构化真实环境中泛化的能力
为直接应对这一挑战，作者宣称引入了一个全新的数据集，其最大特点是大规模采集自完全非结构化的真实世界环境

除了构建更为真实的数据集之外，作者还探讨了如何最佳利用现有数据，重点关注常见的预训练范式的价值。当前被广泛采用的做法是，首先在大规模、多主体的数据集上对模型进行预训练，然后再在目标主体特定的数据集上继续训练。其目标是将来自多样化数据的广泛泛化能力与领域内数据的专门化能力相结合

然而，这一范式的实际有效性仍存在争议，相关研究结果相互矛盾 [12,25,26,27]。作者认为，解决这一问题的关键在于建立一个无偏、高保真、贴近真实世界的基准。因此，本研究采用他们新颖的数据集作为测试平台。通过严格的对照实验，他们系统性地分析并剖析了跨主体预训练对模型在真实环境中泛化性能的实际贡献

1.2 Galaxea开放世界数据集

作者宣称

Galaxea开放世界数据集是一套大规模、高质量、全标注的数据集，源自Galaxea专有的数据采集。该数据集包含10万条示范轨迹，涵盖150个任务类别，分布于50个不同的真实场景
这些示范涉及1600多种独特物体和58项操作技能，技能范围涵盖细致的抓取与放置操作，以及协调的全身操控。所有数据均采用一致的实体设定采集，确保感知、动作与语言标注在整个数据集中完全对齐

1.2.1 数据采集平台

数据采集平台。所有演示均使用Galaxea R1 Lite 平台（图2a）进行记录，这是一款为以人为中心环境设计的移动双臂机器人

该机器人具有23 自由度的结构，包括两个6 自由度的机械臂、一个具有垂直和俯仰运动的3 自由度躯干以扩展工作空间，以及一个最高速度可达1.5 m/s 的6 自由度矢量驱动全向底盘
球形手腕和并联夹爪能够稳健地操作日常物品，最大负载可达5 kg，最大伸展距离为60 cm。感知系统由一个立体RGB头部摄像头用于场景级环境感知，两台英特尔RealSense D405 RGB-D腕部摄像头用于操作过程中的近距离精确感知

该机器人结构紧凑（高度1280毫米，底盘宽度600毫米，整体宽度670毫米），能够在狭窄空间中灵活穿行，同时保持操作能力
为了确保动作的自然性和可行性，作者采用各向异性远程操作方案，将人类操作员的动作直接映射到机器人的运动学上。与虚拟现实远程操作相比，该方法能够使机械臂始终保持在可达的姿态范围内，避免逆向运动学失败，并且无需在人类与机器人形态之间进行重新目标映射

1.2.2 采集指南

数据采集遵循四项指导原则：

可观测性
视觉流应包含所有与任务相关的线索，在操作过程中关键物体始终保持在视野内
数据量与质量
对于简单任务，约100条高质量演示样本已足够；对于更复杂的序列，采集流程先以质量优先的试点阶段进行，之后再扩展规模
语言锚定
每条演示在子任务层面均配有结构化语言描述，从而为VLA模型训练提供多模态对齐

1.2.3 环境与物体多样性、标注流程、与现有数据集的比较

对于环境与物体多样性
该数据集在11个实际场所采集，涵盖住宅、餐饮、零售和办公空间
每个场所包含多个操作区域，总计提供50个独特场景。物体集合均来自真实零售供应商，以确保视觉和物理属性的真实性。对于不安全或不便于反复操作的物品（如食物），使用高保真仿制品，以在保持视觉真实感的同时，兼顾卫生与操作效率
对于标注流程
每个数据片段被划分为原子级子任务。标注采用固定的模式，标注员选择标准化描述，而非自由文本输入，从而提升标注速度和一致性

如下图所示——是带有时间子任务标注的数据样本。他们的数据集涵盖了人们日常生活中的大多数场景，从双臂操作到全身控制机器人数据，并提供高质量、细粒度的子任务标注
每个片段在集和片段两个层面均需经过严格的质量检查；不合格数据——如包含操作员错误或ROS主题频率异常的数据——会被排除在训练集之外
对于与现有数据集的比较
作者将 Galaxea Open-World 数据集与先前的大规模机器人数据集进行比较，包括 BridgeData [28]、RT-1 [25]、Open-X-Embodiment [1] 和 AgiBotWorld [24]

作者宣称，他们的数据集具备以下特点：
i) 在广泛的技能和环境中实现单一体态的一致性
ii) 提供细粒度的子任务级标注，以实现精确的多模态对齐
以及 iii) 在真实世界场景中显著更高的场景多样性

这些特性使其成为研究能够在非结构化人类环境中可靠运行的通用化 VLA 模型的重要基准

1.3 G0双系统(VLM-VLA)中后者VLA部分的三阶段训练及其评估

如图1 所示，他们的G0 双系统由快速响应的System-1 和深思熟虑的System-2 组成

System-1 是一个VLA 模型，负责感知环境、解释子任务指令并执行动作。它是一个端到端的视觉-语言-动作（VLA）模型，旨在控制具有移动躯干和底盘的双臂机器人
在每个时间步 $t$ ，它根据输入的语言指令 $l$ 、来自三台摄像头的视觉观测 $o_{t}$ 以及机器人的本体状态 $s_t$ ，生成带有时域长度 $k$ 的动作片段 $\boldsymbol{A}_{t}=a_{t: t+k}$
G0-VLA 首先利用预训练的VLM 对机器人的视觉观测 $o_{t}$ 和语言指令 $l$ 进行嵌入，然后结合VLM 的KV 缓存，利用流匹配动作专家生成连续动作

在训练方案上，针对G0-VLA模型，作者引入了一个三阶段训练策略，利用多样化的数据集逐步提升其性能和适应性，具体而言
$\rightarrow$ 1) 预训练第一阶段旨在通过整合Galaxea自有的大规模无标签数据集与其他公开机器人数据集，从丰富多样的机器人数据中获得通用先验模型
$\rightarrow$ 2) 预训练第二阶段进一步使模型专注于通过他们高质量数据中记录的多样化物理交互，捕捉单一形态的配置、动力学和运动学特征
$\rightarrow$ 3) 最后，后训练阶段利用少量高质量示范数据对模型进行微调，使其能够精通一组特定任务
同时，System-2 作为VLM 运行，处理高层次的自然语言任务指令，理解场景，并随后为System-1 规划子任务指令
在训练方案上，G0-VLM模型使用来自Galaxea开放世界数据集的图像与子任务标注对进行训练

1.3.1 G0-VLA 预训练阶段-1：训练VLA中的VLM组件(PaLiGemma)

在第一阶段的预训练中，作者仅训练(VLA中的)VLM 组件

为了使 VLM 的语言模型主干能够预测机器人动作，作者采用 FAST tokenizer 作为动作分词器，将原始的连续动作片段转换为离散索引序列
通过这种方式，可以使用标准的交叉熵损失，以自回归方式训练 VLM 预测下一个动作 token
具体而言，给定图像观测 $o_{t}$ 、语言指令 l_t 以及本体感觉状态 $s_t$ ，在时间 t 时，策略被训练以建模动作 token 的条件分布
$p\left(\mathbf{A}_{t}^{d}\right)=\prod_{i=1}^{N} p\left(a_{i}^{d} \mid a_{<i}^{d}, o_{t}, l_{t}, s_{t}\right)$

其中， $\mathbf{A}_{t}^{d}$ 表示由动作分词器生成的 $N$ 个离散动作标记 $a^{d}$

另，VLM 初始化自PaLiGemma[29，更多详见《多模态PaliGemma 2(含1代)：Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)》]，由一个SigLIP 视觉编码器、一个单层MLP 投影器和一个标准Transformer 组成

视觉编码器和投影器共同将三张输入图像转换为一维嵌入序列，该序列随后通过Transformer内部的注意力机制，关注分词后的语言指令、本体状态以及先前预测的动作token

在第一阶段预训练所用的数据中，作者在多样化的机器人形态录制数据集上训练VLM。这包括大约1000小时的OXE轨迹、500小时来自GalaXea开放世界数据集的数据（仅使用高层次任务描述，排除低层次语言注释），以及200小时仅包含高层次任务描述的内部数据
在该阶段仅训练VLM的动机可以从两个角度进行解释：
1）训练数据来自不同的实现方式，注释的质量及其对应动作的准确性存在不一致。因此，动作专家无法从这些数据中学习到足够有用的知识
2）如果在模型尚未收敛、尚未生成稳定表征前引入扩散损失，可能会对学习过程产生负面影响

1.3.2 G0-VLA 预训练阶段-2

在本阶段，作者在标注过的 Galaxea 开放世界数据集上训练他们的 System-1 VLA。VLA 由经过预训练的VLM 和新初始化的动作专家组成

动作专家生成在本体感觉状态和由VLM生成的表征条件下的连续动作

具体而言，他们通过最大化以下目标来训练他们的VLA

$\max _{\theta} \mathbb{E}_{p\left(\boldsymbol{A}_{t}, o_{t}, l_{t}, s_{t}\right)}\left[\log \pi_{\theta}\left(\boldsymbol{A}_{t} \mid o_{t}, l_{t}, s_{t}\right)\right]$

且采用流匹配损失

这里， $A_{t}$ 表示从时刻 $t$ 起、时长为 $H$ 的动作片段， $o_{t}$ 是视觉观测， $l_t$ 是语言指令， $s_t$ 是本体状态。 $\boldsymbol{A}_{t}^{\tau}$ 是插值后的带噪动作， $\boldsymbol{A}_{t}^{\tau}=\tau \boldsymbol{A}_{t}+(1-\tau) \varepsilon \cdot v_{\theta}(\cdot)$
说白了，上述公式中，前者 $v_{\theta}(\cdot)$ 是VLA 预测的流，后者 $\boldsymbol{u}(\cdot)$ 是由动作轨迹得到的目标流

怎么理解上面这段表述呢，其实我在《π0——用于通用机器人控制的VLA模型：一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)》这篇文章里已经讲的很清楚了，为方便大家一目了然，我再把π0解读中的那段内容贴一下

在训练过程中，使用条件流匹配损失Conditional Flow Matching[28,32]，对这些动作token进行监督

$L^{\tau}(\theta)=\mathbb{E}_{p\left(\mathbf{A}_{t} \mid \mathbf{o}_{t}\right), q\left(\mathbf{A}_{\tau}^{\tau} \mid \mathbf{A}_{t}\right)}\left\|\mathbf{v}_{\theta}\left(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}\right)-\mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)\right\|^{2}$

上式中的前者 $\mathbf{v}_{\theta}\left(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}\right)$ 为学习网络相当于预测的噪声，后者 $\mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)$ 为学习目标相当于添加的真实噪声，即训练前者去逼近后者

最近在高分辨率图像[14]和视频[38]合成方面的研究表明，当流匹配与简单的线性高斯(或最优传输)概率路径[28]结合时，可以实现强大的经验性能

具体由下述表达式给出
$q\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)=\mathcal{N}\left(\tau \mathbf{A}_{t},(1-\tau) \mathbf{I}\right)$

在实践中
第一步，一般都是网络先通过随机采样符合正太分布的噪声 $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 进行训练，计算“带噪声的动作”
$\mathbf{A}_{t}^{\tau}=\tau \mathbf{A}_{t}+(1-\tau) \epsilon$
In practice, the networkis trained by sampling random noise ϵ ∼N(0, I), computingthe “noisy actions” Aτt = τAt + (1 −τ)ϵ

相当于先加噪，类似此文中「5.2.1 通过示意图对比：ϵ-prediction、v-prediciton与rectified flow」最后对rectified flow的阐述：或
相当于从动作分布 $\mathbf{A}_{t}$ 到噪声分布 $\mathbf{A}_{t}^{\tau}$
之后，再去噪

然后，第二步：然后训练网络输出 $\mathbf{v}_{\theta}\left(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}\right)$ 「此为动作块的向量场表示， $\mathbf{v}_{\theta}$ 代表预测的噪声」，以匹配去噪向量场 $\mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)$ ( $\mathbf{u}$ 代表添加的真实噪声)
『即training the network outputs vθ (Aτt , ot) to match the denoising vector field u(Aτt |At) = ϵ −At 』
所以才有上面提到的损失函数
$L^{\tau}(\theta)=\mathbb{E}_{p\left(\mathbf{A}_{t} \mid \mathbf{o}_{t}\right), q\left(\mathbf{A}_{\tau}^{\tau} \mid \mathbf{A}_{t}\right)}\left\|\mathbf{v}_{\theta}\left(\mathbf{A}_{t}^{\tau}, \mathbf{o}_{t}\right)-\mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)\right\|^{2}$

啥意思呢？
相当于得到了所添加的真实噪声之后，便可以通过该公式 $\mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)=\epsilon-\mathbf{A}_{t}$ ，计算得到 $\mathbf{A}_{t} =\epsilon - \mathbf{u}\left(\mathbf{A}_{t}^{\tau} \mid \mathbf{A}_{t}\right)$

总之，预训练阶段2侧重于提升动作精度和语言基础能力，这得益于Galaxea开放世界数据集的两个关键特性：

单一体现：所有轨迹均在同一机器人平台上采集，确保动作空间一致，无需动作专家在不同体现之间进行适应
语言-动作对齐：指令与轨迹在子任务级别进行分段，生成细粒度的语言-动作对。这促进了指令与机器人动作之间更强的对应关系

1.3.3 G0-VLA 后训练(微调)：面向任务的训练

为测试预训练模型的泛化能力，作者在下游任务上使用不同的预训练权重对 VLA 进行微调，并采用与阶段二相同的训练目标

对于每个任务，微调数据最多限制为 100 条轨迹

1.3.4 G0-VLA 的评估：涉及预训练权重、小样本迁移、具身体特定动作

在本节中，作者构建了具有挑战性的基准测试，并进行了微调实验，以评估G0-VLA模型及他们所提出数据集的有效性。每项任务都经过精心设计，旨在考察模型的特定能力。他们研究的核心问题是：预训练数据如何影响VLA？

然后从三个角度进行探讨：

预训练是否提升了下游任务的微调性能？预训练权重的重要性有多大？
在单一具身体预训练的情况下，能否加速小样本迁移？
单一具身体与跨具身体预训练在具身体特定动作上有何异同？

他们的基准测试包括以下任务：

桌面整理：机器人需要整理杂乱的书桌，包括将笔放入笔筒、拾取并悬挂耳机，以及将书本放到书架上。该任务用于评估模型在精确抓取与放置、双臂协同操作以及保持物体稳定性方面的能力
该任务满分为6分。每个动作被视为一次抓取与放置操作，成功抓取得1分，成功放置得1分
微波炉操作：机器人打开微波炉门，将食物放在盘子上，再将盘子放入微波炉，最后关闭微波炉门以启动加热。该任务评估模型在与家用电器交互以及执行多步操作序列方面的能力
该任务满分为5分，评分步骤包括：选取正确的食物、将其放在盘子上、打开微波炉门、将盘子放入微波炉内，以及关闭微波炉门
整理床铺：机器人被要求整理床上凌乱的被子，使其平整且整洁。该任务强调全身控制，需要底盘、躯干和手臂的协调配合，以实现高效执行
该任务满分为4分，分别对应以下四个环节：移动到床边、抬起上身并抓住被子、上身后仰、移动以铺平被子
积木堆叠：机器人被要求通过堆叠积木拼出指定单词。该任务考察模型的语言理解能力以及精准的抓取与放置能力
该任务满分为6分。每个动作被视为一次抓取与堆叠操作，成功抓取积木得1分，成功堆叠得1分

为保证可复现性，作者对每个测试运行10次，并取每项任务的平均得分

1.3.4.1 预训练权重

在本实验中，作者测试了不同预训练权重的有效性。作者在提出的基准任务上对预训练模型进行微调，每个任务使用100条训练轨迹（每条轨迹持续30秒至1分钟不等）

评估的配置如下：

G0 (Stage-1) ：仅经过第一阶段预训练的VLA
G0 (Stage-2 200h) ：仅经过第二阶段预训练（200小时数据）的VLA
G0 (Stage-2 400h) ：仅经过第二阶段预训练（400小时数据）的VLA
G0 (Full) ：VLA先进行第一阶段预训练，再进行第二阶段预训练（400小时数据）
G0 (Scratch) ：VLA 未经过任何动作预训练（直接初始化自原始 VLM 权重）
π0：π0[12] 采用官方发布的预训练权重作为基线

所有模型均在相同设置下微调4个epochs。结果如图9所示

总体来看

G0（Full）获得了最高的平均进展分数
具体而言，它在Table Bussing、Microwave Operation和BedMaking任务中展现出卓越的物体抓取能力
G0（Stage-2 400h）和G0（Stage-2 200h）在语言跟随、动作一致性以及整体身体控制能力方面表现最佳，这将在第5.3节进一步讨论
相比之下，G0（Stage-1）在所有预训练模型中表现最差，突显了单体预训练的重要性

作者观察到
第一阶段的预训练主要提升了VLA执行诸如抓取-放置和推拉等简单且通用动作模式的能力
与此同时，第二阶段的预训练将模型专门针对作者的机器人平台进行了训练，从而提高了动作的稳定性和指令的执行能力

1.3.4.2 小样本迁移

在本部分，作者专门评估了他们VLA的少样本迁移能力。他们仅使用每个任务（Table Bussing和Microwave Operation）各20条轨迹对模型进行微调。每个模型均在相同设置下微调10个epoch

如图10所示，经过第二阶段预训练的模型显著优于未经过该阶段预训练的模型
除了量化提升之外，作者还观察到这些模型在执行过程中产生的动作更加平滑且稳定
作者认为，上述结果表明，单体预训练显著提升了同一体态下的少样本泛化能力，进一步突显了他们Galaxea开放世界数据集中单体数据的重要性
且值得注意的是，仅经过第一阶段预训练的模型，相较于从零训练的模型，并未表现出明显优势。这表明，仅依靠跨体态动作预训练，可能不足以让模型在少样本场景下快速适应新的体态

1.3.4.3 具身体特定动作

在本节中，作者对具体体现的动作进行了详细分析

铺床任务属于长时序任务，需要频繁、协调且精确的全身控制，包括底盘、躯干和手臂。这些都是具体体现的行为，在诸如OXE等跨体现数据集中并未体现
作者在图11中按技能报告了进展得分。在单一体现数据上进行的第二阶段预训练显著提升了模型在这些体现特定技能上的表现，这表明此类能力在该预训练阶段能够被有效习得
相比之下，使用跨体现数据（例如，第一阶段预训练和π0）在底盘相关动作的指令遵循能力明显较弱，躯干控制的准确性也较差
在某些情况下，其表现甚至不如从零开始训练的模型。作者推测，机器人自身与用于第一阶段预训练的OXE数据集中机器人之间存在较大的体现差距，这阻碍了模型获取与具体体现相关技能的能力

这些发现强调，在预训练策略中使用跨体现数据时，需谨慎设计，以确保知识能够正向迁移

1.4 G0双系统(VLM-VLA)中前者VLM部分的训练及其评估

1.4.1 G0-VLM 训练：利用Galaxea数据集微调Qwen2.5-VL

G0-VLM 是双系统中的高级规划器，承担多项职责：解释人类的高层指令、以自然语言进行响应、执行任务规划，并向 G0-VLA 下发低层原子动作指令以供执行

在他们的实现中，他们采用了以开源的 Qwen2.5-VL [30] 为起点，并利用从 Galaxea Open-World 数据集抽样的数据进行指令微调

为了以可扩展的方式训练G0-VLM，作者利用了人工标注的子任务以及合成的人类风格高层指令

首先，从Galaxea Open-World 数据集中采样样本
在采样过程中，将关键帧（定义为子任务接近结束或夹爪状态发生变化的时刻）赋予更高的采样权重，以促进任务转换的学习
然后，提取主摄像头图像和子任务标注

为了使VLM 能够处理长时间上下文下的任务规划，作者还以1 秒为间隔，将 $k$ 帧的历史图像观测和机器人动作输入模型
最终得到的数据集 $D_{\text {labeled }}$ 包含任务名称、机器人观测 $o_{t-k}, \ldots, o_{t}$ ，以及子任务指令 $l_{t-k}, \ldots, l_{t}$
随后，在 $D_{\text {labeled }}$ 上应用一个推理型LLM(DeepSeek-R1)，以生成类人风格的高层指令以及机器人对人类的回应
$\rightarrow$ 向LLM 输入每个任务的任务名称（例如，拉椅子和推椅子）、历史和当前子任务以及下一个子任务；
$\rightarrow$ LLM 随后对提示进行推理，分析整个动作序列，想象现实世界场景，并最终生成类人风格的口头指令（例如，” 我要坐下了，你能帮我把椅子拉出来吗？”）
以及机器人对人类的口头回应（例如，” 我正在处理！”）

在这里，作者并未向LLM 输入图像观测信息，因为作者认为LLM 的推理能力足以通过他们高质量的原子动作标注来推断任务场景

1.4.2 评估 G0-VLM

在作者的双系统框架中，G0-VLM 作为任务规划器，负责处理人类指令和环境观测，并为下游的 VLA 模块生成可执行的指令

此过程的有效性关键取决于两个方面：

一是指令与观测的准确匹配，确保 VLM 能够正确理解感知输入
二是动作原语的保真度，决定 VLA 是否能够正确执行生成的指令

因此，作者设计了评估指标，以严格考察 VLM 性能的这两个方面。并探讨了两个关键问题：

i）与直接使用预训练模型相比，微调是否必要
ii）有监督微调（SFT）如何提升视觉语言模型（VLM）在机器人任务中的能力，尤其是在提升动作落地准确性方面

为此，作者对多个已有模型进行了基准测试，包括 Gemini-2.5-pro和 Qwen2.5-VL（涵盖不同参数规模的变体），并与G0微调后的版本进行对比

为了确保公平比较，作者为所有基线模型设计了标准化提示词，包含任务特定指令、原子动作选项及输出示例。该设置限制模型只能从提供的选项中进行选择，消除了因提示词设计带来的变异性，使评估更加专注于模型的核心能力
表1显示，G0微调后的模型在准确率上超过了基线50%以上，通过针对任务的微调，使语言指令能够被VLA直接执行
作者认为，这验证了他们的核心假设：机器人应用不仅需要通用的视觉-语言理解，更需要通过领域自适应，实现精确对齐的动作原语