LAP：用语言统一动作表示，首个实现跨本体零样本迁移的 VLA

less than 1 minute read

Published: April 06, 2026

Princeton + Physical Intelligence 最近出了篇论文，解决了一个困扰具身智能很久的问题——机器人策略跨本体迁移。

简单说就是：在 Franka 机械臂上训练的策略，换到 KINOVA 或 YAM 上，成功率直接归零。不是工程问题，是表示学习层面的根本性缺陷。

LAP 的做法很直接：用自然语言表示机器人动作。

论文：LAP: Language-Action Pre-Training Enables Zero-Shot Cross-Embodiment Transfer arXiv: 2602.10556 项目主页：https://lap-vla.github.io/

问题在哪

现有 VLA 模型的动作输出是连续向量，维度等于关节自由度数量。Franka 是 7 自由度，KINOVA 是 6 自由度，YAM 又是另一套运动学结构。动作空间完全不兼容。每引入一种新机器人，就得重新收集数据、重新训练。

把两帧之间的机器人运动用自然语言描述：

“The end-effector moves 3cm forward and rotates 15 degrees clockwise.”

好处：动作学习和 VQA 共享同一个 Transformer 解码器；不同本体的动作可以在同一语义空间对齐；预训练数据可以跨本体混合。

LAP-3B 在未见本体上的零样本平均成功率 >50%，比最强 baseline 提升约 2 倍。所有其他开源 VLA 在零样本跨本体评估中成功率全崩了。

语言是天然的本体无关表示：”向前移动 3cm” 对 Franka、KINOVA、YAM 都有意义。VLM 预训练赋予了模型强大的语义理解能力。

从 4B 到 27B 参数，LAP 的 loss 持续下降，没出现饱和，说明具备良好 scaling 潜力。

语言不只是人机交互的接口，也可以是机器人动作的通用表示空间。

参考：Zha et al., “LAP: Language-Action Pre-Training Enables Zero-Shot Cross-Embodiment Transfer”, arXiv:2602.10556, 2026.