GR00T N1.7：VLM backbone 换了三次，每次在解什么问题

less than 1 minute read

Published: April 21, 2026

GR00T N1.7 刚发布，最值得看的改动是 VLM backbone：从 N1.6 的内部 Cosmos-2B 换成了 Cosmos-Reason2-2B。这已经是 N1 系列第三次换 backbone 了。

架构

GR00T 是双系统：System 2（VLM）负责看图、理解语言指令；System 1（Diffusion Transformer）负责把语义转成连续动作。两边端到端联合训练，3B 参数。

N1： 语言跟随只有 46.6%，听不懂指令。

N1.5： 换了 Eagle 2.5，VLM 权重全程冻住。反直觉但管用——语言跟随跳到 93.3%。

N1.6： VLM 换成内部 Cosmos-2B，DiT 从 16 层扩到 32 层，解冻 VLM 顶层 4 层参与预训练。

N1.7： backbone 换成 Cosmos-Reason2-2B，基于 Qwen3-VL 加推理后训练。数据侧加了 20K 小时 EgoScale 人类视频和 1.6M 真实机器人数据。

N1.5 解语言跟随，N1.6 解动作容量不足，N1.7 解长序列执行不稳——每次都是冲着上一版的具体失败去的。

场景记忆和重规划。之前 VLA 多步骤任务容易崩，根本原因是每步都是无状态的。N1.7 加了跨步骤记忆，稳定完成 50+ 步复杂任务。推理速度比 N1.6 快 30%。

但推理 backbone 带来的收益目前没有数字，官方只说「comparable performance to N1.6」。现在还是 Early Access，等 GA 版本再看。