X-VLA：软提示 Transformer 作为可扩展的跨具身视觉-语言-动作模型

25年10月来自AI工业研究院（AIR）、清华、上海AI实验室和北大的论文“X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model”。成功的通用型“视觉-语言-动作”（VLA）模型依赖于跨多种机器人平台的有效训练，以及大规模、跨具身、异构的数据集。为了促进并充分利用丰富多样

硅谷秋水

1031人浏览 · 2025-10-29 00:15:00

硅谷秋水 · 2025-10-29 00:15:00 发布

25年10月来自AI工业研究院（AIR）、清华、上海AI实验室和北大的论文“X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model”。

成功的通用型“视觉-语言-动作”（VLA）模型依赖于跨多种机器人平台的有效训练，以及大规模、跨具身、异构的数据集。为了促进并充分利用丰富多样的机器人数据源的异构性，本文提出一种“软提示”（Soft Prompt）方法，该方法将提示学习概念融入跨具身机器人学习中，并为每个不同的数据源引入独立的可学习嵌入集，从而最大限度地减少参数的增加。这些嵌入集作为具身机器人学习的提示，共同赋能 VLA 模型，使其能够有效利用各种跨具身特征。X-VLA 是一种基于流匹配的简洁 VLA 架构，它完全依赖于软提示的标准 Transformer 编码器，兼具可扩展性和简洁性。通过在 6 个模拟和 3 个真实世界的机器人上进行评估，其 0.9B 实例化 X-VLA-0.9B 同时在一系列基准测试中实现 SOTA 性能，在从灵活的灵活性到跨身、环境和任务的快速适应等广泛能力方面展现出卓越的成果。

X-VLA如图所示：

请添加图片描述

VLA 模型。VLA 模型是一类将多模态理解与机器人控制动作生成统一起来的模型（Physical Intelligence，2025；NVIDIA，2025）。通常，VLA 模型由在大规模图文语料库上预训练的 VLM 初始化，然后在包含专家轨迹的机器人数据集上进行微调：D = {𝜏_𝑗}，𝜏_𝑗 = {(𝑜_𝑛, 𝑎_𝑛)}，其中𝑜_𝑛 表示第 𝑛 步的多模态观察（例如，视觉输入、语言指令、本体感受状态），𝑎_𝑛 表示其对应的专家动作。训练目标通常被定义为行为克隆，其中对由𝜃参数化的策略𝜋_𝜃(𝑜_𝑛)进行优化，以预测演示的动作块 𝐴_n := [𝑎_n, 𝑎_n+1, …, 𝑎_n+T]^T，其中𝑇表示块大小（Zhao et al., 2023; Chi et al.; Physical Intelligence et al., 2025），通过最小化合适的监督损失 l(·) 为：L_BC(𝜃) = 𝔼(𝑜_𝑛, 𝐴_𝑛) ∼ D[l (𝜋_𝜃(𝑜_𝑛), 𝐴_𝑛)]。

流匹配策略。流匹配策略通常不是直接从观察𝑜预测专家动作块𝐴，而是学习一个速度场（Lipman，2023；Physical Intelligence，2025；Black，2025），该速度场将噪声样本传输到目标动作块。例如，可以从高斯噪声𝐴⁰ ∼ N(0, 𝐼)出发，通过速度场 𝑣(𝐴^𝑡, 𝑜, 𝑡) 迭代地对其进行细化，从而生成一个动作𝐴。

速度场𝑣_𝜃(𝐴^𝑡, 𝑜, 𝑡)由神经网络参数化，并使用诸如欧拉-丸山（Euler-Maruyama）方法之类的常微分方程求解器：𝐴^𝑡+Δ𝑡 =𝐴^𝑡 +𝑣_𝜃(𝐴^𝑡,𝑜,𝑡)Δ𝑡。其中，𝑡 ∈ [0,1] 是连续时间变量。为了训练速度场，用 OT（最佳传输）路径（Lipman，2024，2023） L^FM_BC，该路径将速度与噪声和专家数据之间的线性插值路径对齐，其中𝐴^𝑡 = (1−𝑡)𝐴⁰ +𝑡𝐴，U 为均匀分布。通过最小化 L^FM_BC，该策略学习逐步地将随机噪声迁移到以观测结果为条件的专家块。

跨具身训练中的异质性。对于开发通用 VLA 模型而言，在由 𝐻 个异构数据集 D^𝐻 = {D_i}^𝐻 组成的混合数据方案上进行训练至关重要 (Doshi et al., 2024a; O’Neill et al., 2024)。每个数据集 D_𝑖 均在特定硬件配置 h_𝑖 ∈ H 下收集，其中 H 表示可能的硬件设置空间，例如手臂动力学、控制接口、摄像头配置和部署场景。这些因素不仅在低级动作信号和分布方面，而且在高级视觉理解方面也引入显著的异质性，如果不有效解决，可能会导致预训练和自适应效果不佳 (Wang et al., 2024c; Zheng et al., 2025)。

为了解决异质性问题，开展一项全面的实证研究，以探索潜在的设计选择，如图所示。遵循 Reuss (2025) 和 Bjorck (2025) 的研究，建立一个标准的双系统架构作为起点，该架构利用 VLM 进行多模态感知，并利用 DiT 风格的解码器进行动作生成。

请添加图片描述

在下图中，构建一个异构数据混合，数据来源包括 AGIBOT-beta (Bu et al., 2025)、RoboMind (Wu et al., 2025) 和 Droid (Khazatsky et al., 2024)。该数据集涵盖五款机器人的七种硬件配置，从单臂到双手配置，提供了通用策略训练所需的足够规模和多样性。用完全一致的训练方案来评估所有方法，以确保公平比较。

请添加图片描述

(a) 特定域的动作投影。该策略通过在模型输出处分配单独的投影头来将动作 token 映射到特定具身的动作空间，从而解决异质性问题。虽然这种方法在先前的具身基础模型中被广泛使用（Physical Intelligence，2025；Bjorck，2025；Team，2025；Zheng，2025；Liu，2025b），但其效果仅限于最终的动作生成阶段。因此，它无法在流程早期鼓励具身-觉察推理，并且忽略其他关键的异质性来源，例如不同摄像机设置和任务分布的变化。为了克服这些限制，确定三种代表性策略，它们可以提高异构数据集上的预训练稳定性。

(b) HPT 式投影。灵感来自 Wang (2024c)，该方法旨在通过将来自不同域的观察结果映射到共享的表示空间中，来缓解观察输入中的域差异并促进泛化推理。具体而言，特定域的投影层也被应用于多模态输入之上，以便在输入到主干网络之前对其进行对齐。

(d) 软提示。最后，研究一种遵循元学习和多任务学习理念（Finn，2017；Liu，2023c）的软提示方法，该方法通过引入特定域的可学习参数 𝑃^𝐻 = {𝑝_i}^𝐻 来吸收跨数据源的异质性。𝑝_i 预计会编码底层硬件配置：𝑝_i ≈ Φ(h_i)，其中 Φ 表示从硬件配置到提示空间的潜映射。值得注意的是，Φ 并非像语言提示 © 那样由硬模板预先定义，而是随机初始化，然后通过端到端训练进行隐性的优化。这些软提示在动作生成的早期阶段被注入模型，自动引导主干网络进行具身-觉察学习。

虽然 (b) HPT 式投影和 © 语言提示在概念上很吸引人，但它们也存在明显的局限性。 HPT 式投影在观测处理过程中引入不同的投影层，这些层会频繁改变特征分布，并且容易破坏预训练的 VLM 表示，从而导致训练动态不稳定。另一方面，语言提示依赖于精心编写的硬件配置文本描述，这极大地阻碍实践中的适应性和可扩展性。相比之下，软提示为编码特定领域的硬件配置提供一种灵活且可扩展的解决方案。它们结合 (b) 和 © 的优势，可以与主干网络平滑集成，同时保留预训练表示并消除手动注释的需要。下图所示实证结果证实，软提示在异构数据集上始终能够实现更稳健、更稳定的训练。

请添加图片描述

基于 Soft Prompts，引入 X-VLA，这是一种简洁的 VLA 架构，旨在在异构数据集上进行稳定的预训练，并高效地适应新领域。完整的简化路径如表所示，重点介绍各个组件的贡献。

请添加图片描述

架构

设计的核心理念是构建一个精简的编码流程，用于处理复杂的多模态输入。除了软提示之外，X-VLA 还能处理 (1) 高维输入（多视角视觉和语言），以及 (2) 低维状态（本体感觉和动作 token）。由于这些模态在语义和维度上存在巨大差异，采用专门的编码策略来有效地对齐它们，之后使用原始 Transformer 堆栈即可进行可扩展的策略学习。

高维观测流。高维输入包括多视角图像 Img = {img_𝑖}，以及指定任务目标的语言𝐿。与大多数先前方法（Physical Intelligence，2025；Octo Model Team，2024；Bjorck，2025）直接将所有视图和指令输入 VLM 不同，通过分配不同的编码器来解开这些流。预训练的 VLM 编码器（X-VLA 中的 Florence-Large (Xiao，2024)）用于主视觉语言流（固定视图和指令），而辅助视图（例如腕部视图）则由共享视觉主干处理。这种设计弥合通用视觉语言推理与具身推理之间的语义鸿沟：固定摄像头视图为高级任务推理提供稳定、信息丰富的上下文；而腕部摄像头输入虽然噪声较大且快速变化，但为细粒度操作提供关键线索，因此与语言流分开编码。

2）低维本体感受动作流。本体感受状态𝑅_𝑡（例如关节位置和末端执行器姿势）为推理和控制提供了具身的落地。与动作相关的token 𝐴_𝑡由用于流匹配生成的噪声动作样本组成。由于𝑅_𝑡和𝐴_𝑡都是具有紧密相关物理语义的紧凑向量，因此在流匹配流程中将它们与相应的时间嵌入𝑇 连接起来。融合后的嵌入通过轻量级线性层投影到高维特征空间，从而能够与其他模态进行早期融合，并确保稳健的本体感受-时间落地。

定制训练方案

为了充分激发X-VLA的潜力，引入设计的学习工程，以增强X-VLA训练的稳定性和有效性。

预训练和微调流程

在预训练过程中，主干模型 𝜋_𝜃 和软提示 𝑃^𝐻 在流匹配目标函数 L^FM_BC 下进行联合优化。预训练后，主干模型将成为与具身无关的基础模型，能够快速适应异构机器人。为了将该模型部署到具有新硬件配置h_new的新领域，本文提出一个轻量级的两步自适应程序：

(1) 提示预热。为h_new引入一组新的可学习提示𝑝_new。首先对提示进行预热，同时保持预训练权重不变。通过这种方式，提示能够利用预训练的与具身无关的特征，为下一轮联合训练奠定良好的基础。

(2) 联合策略适应。然后，联合优化主干模型和预热后的提示模型，并共同适应新领域。这个两阶段过程首先让𝑝_new编码h_new的硬件特定设置，然后微调整个策略以实现有效的专业化，这与将LLM适配到VLM的理念相同（Liu et al., 2023a; Li et al.）。

自定义学习率 (LR)。预训练和适应过程中的一项关键稳定技术，是降低软提示模型以及负责编码视觉和语言输入的视觉语言模块学习率。这种调整降低预训练表征发生灾难性漂移的风险，这个问题（Reuss et al., 2025; Driess et al., 2025）也已指出），从而使预训练过程中的优化更加平滑，并在适应新具身实现时做到更可靠的专业化。它有效地将视觉语言模型中编码的一般知识与 VLA 模型所需的细粒度空间定位和动作落地联系起来。

增强数据处理

对齐动作表示。动作是 VLA 模型的核心监督信号，其质量直接影响训练结果。因此，将动作空间标准化为末端执行器 (EEF) 的姿态表示，其包含：(1) 笛卡尔坐标系 EEF xyz 位置；(2) 使用 Rotate6D 表示 (Zhou et al., 2019) 编码的 EEF 绝对旋转，以避免欧拉角和四元数表示固有的不连续性；以及 (3) 夹持器的离散化二进制状态。位置和旋转使用均方误差 (MSE) 损失函数进行优化，而夹持器状态使用二进制交叉熵 (BCE) 损失函数进行优化。这确保了不同实例之间的一致性，并为可泛化的策略学习提供了稳健的监督。

通过时间下采样进行意图抽象。虽然低级动作轨迹提供了部署所需的精确操作信号，但它们通常粒度过细，并且可能包含大量由于人为随机性而产生的噪声动作，因此不适合在预训练中实现高级落地和意图建模。为了缓解这个问题，暂时对演示进行下采样，以构建动作意图的抽象表示。具体而言，该流程并非在每个时间步预测完整的末端执行器姿态，而是设计为生成一个由 30 个锚点组成的序列，这些锚点概括接下来 4 秒的预期轨迹。

平衡数据采样策略。与常见的循环数据采样策略 (Wang et al., 2024c) 相比，稳定的训练需要精心设计的数据混洗流程。不仅跨不同域混洗样本，还跨每个域内的轨迹混洗样本，确保每次迭代都接触到多样化且平衡的数据混合。这有效地减轻分布偏差并减少对主导域的过拟合，促进大规模预训练期间更平稳的收敛。

本文展示迄今为止最全面的验证研究之一，在 5 个模拟环境和 3 个真实机器人平台上评估 X-VLA-0.9B。

模拟基准测试。在 Libero（Liu，2024）、Simpler（Li，2025）、VLABench（Zhang，2024a）、RoboTwin-2.0（Chen，2025）、Calvin（Mees，2022）和 NAVSIM（Dauner，2024）上进行评估。这 6 个基准测试涵盖数百种评估设置，涵盖单臂、双手机器人系统、自动驾驶，并评估了跨具体化、跨环境和跨任务自适应等多种泛化维度。在五个基准测试中，建立新的 SOTA，与之前的聚合模型相比取得显著的改进。值得注意的是，它在多个基准测试中达到超过 90% 的成功率，例如 Simpler-WidowX（96%）、Libero（98%）和 Calvin-1st stage。
如图所示自适应实验的评估配置：

请添加图片描述

真实世界实验。还在物理机器人平台上按照 BridgeData-v2 基准（Walke，2023）评估 X-VLA-0.9B。 X-VLA 在所有五项任务中均超越其他基准，每项任务都针对不同的能力维度进行了测试，展现了 X-VLA 卓越的适应性。

灵巧叠布任务。引入一项具有挑战性的灵巧叠布任务，该任务需要抚平高度无序的布料并将其折叠整齐。为了支持这项工作，在双手 Agilex 平台上构建一个高质量的叠布数据集，称为 Soft-Fold，该数据集包含通过精心设计的流程收集的 1,200 条轨迹。利用该数据集进行自适应， X-VLA-0.9B 模型实现接近 100% 的成功率，每小时可完成 33 次折叠，与闭源的 𝜋0 折叠模型 (Physical Intelligence et al., 2025) 相当，后者很可能是在规模更大、质量更高的数据集上训练的。为了公平起见，对 𝜋0-base 模型进行微调，并在 Soft-Fold 上从头训练一个 ACT 模型 (Zhao et al., 2023)，但它们的吞吐量都无法与 X-VLA-0.9B 匹敌，这凸显模型强大的灵巧操作能力。

参数高效微调 (PEFT) 实验。为了评估预训练的 X-VLA-0.9B 主干模型是否能够编码与具体化无关的特征，并高效地适应新环境，采用 PEFT 技术，例如低秩自适应 (LoRA) (Hu et al., 2022)。在三个基准测试中测试自适应性：Libero、Simpler-WidowX 以及 AIRBOT 上的拾布任务（AIRBOT 是预训练期间未见过的真实世界具体化身）。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插