LAP:用语言统一动作表示,首个实现跨本体零样本迁移的 VLA
Published:
Princeton + Physical Intelligence 最近出了篇论文,解决了一个困扰具身智能很久的问题——机器人策略跨本体迁移。
简单说就是:在 Franka 机械臂上训练的策略,换到 KINOVA 或 YAM 上,成功率直接归零。不是工程问题,是表示学习层面的根本性缺陷。
LAP 的做法很直接:用自然语言表示机器人动作。
论文:LAP: Language-Action Pre-Training Enables Zero-Shot Cross-Embodiment Transfer arXiv: 2602.10556 项目主页:https://lap-vla.github.io/
问题在哪
现有 VLA 模型的动作输出是连续向量,维度等于关节自由度数量。Franka 是 7 自由度,KINOVA 是 6 自由度,YAM 又是另一套运动学结构。动作空间完全不兼容。每引入一种新机器人,就得重新收集数据、重新训练。
LAP 的思路
把两帧之间的机器人运动用自然语言描述:
“The end-effector moves 3cm forward and rotates 15 degrees clockwise.”
好处:动作学习和 VQA 共享同一个 Transformer 解码器;不同本体的动作可以在同一语义空间对齐;预训练数据可以跨本体混合。
LAP-3B 在未见本体上的零样本平均成功率 >50%,比最强 baseline 提升约 2 倍。所有其他开源 VLA 在零样本跨本体评估中成功率全崩了。
为什么语言表示有效
语言是天然的本体无关表示:”向前移动 3cm” 对 Franka、KINOVA、YAM 都有意义。VLM 预训练赋予了模型强大的语义理解能力。
从 4B 到 27B 参数,LAP 的 loss 持续下降,没出现饱和,说明具备良好 scaling 潜力。
局限性
- 语言描述的粒度有限,对亚毫米精度操作可能引入误差
- 语言生成延迟高于直接输出连续动作向量
- 动作解码器仍需针对每个本体单独训练
语言不只是人机交互的接口,也可以是机器人动作的通用表示空间。
参考:Zha et al., “LAP: Language-Action Pre-Training Enables Zero-Shot Cross-Embodiment Transfer”, arXiv:2602.10556, 2026.

