GR00T N1.7:VLM backbone 换了三次,每次在解什么问题

less than 1 minute read

Published:

GR00T N1.7 刚发布,最值得看的改动是 VLM backbone:从 N1.6 的内部 Cosmos-2B 换成了 Cosmos-Reason2-2B。这已经是 N1 系列第三次换 backbone 了。

架构

GR00T 是双系统:System 2(VLM)负责看图、理解语言指令;System 1(Diffusion Transformer)负责把语义转成连续动作。两边端到端联合训练,3B 参数。

三次换 backbone 的逻辑

N1: 语言跟随只有 46.6%,听不懂指令。

N1.5: 换了 Eagle 2.5,VLM 权重全程冻住。反直觉但管用——语言跟随跳到 93.3%。

N1.6: VLM 换成内部 Cosmos-2B,DiT 从 16 层扩到 32 层,解冻 VLM 顶层 4 层参与预训练。

N1.7: backbone 换成 Cosmos-Reason2-2B,基于 Qwen3-VL 加推理后训练。数据侧加了 20K 小时 EgoScale 人类视频和 1.6M 真实机器人数据。

N1.5 解语言跟随,N1.6 解动作容量不足,N1.7 解长序列执行不稳——每次都是冲着上一版的具体失败去的。

核心新能力

场景记忆和重规划。之前 VLA 多步骤任务容易崩,根本原因是每步都是无状态的。N1.7 加了跨步骤记忆,稳定完成 50+ 步复杂任务。推理速度比 N1.6 快 30%。

但推理 backbone 带来的收益目前没有数字,官方只说「comparable performance to N1.6」。现在还是 Early Access,等 GA 版本再看。