Gemini Robotics-ER 1.6：谷歌机器人大脑的空间推理大幅升级

less than 1 minute read

Published: April 16, 2026

谷歌 DeepMind 发布了 Gemini Robotics-ER 1.6，「具身推理」系列模型的重大升级。核心问题：让机器人从「能动」变成「看懂」——看懂空间关系，看懂任务完没完成，知道什么时候不该动。

什么是具身推理模型？

上层推理模型（ER 1.6）： 看懂场景、拆解任务、判断每步是否完成、决定重试还是换策略。还可以调用 Google Search、第三方 VLA、用户自定义函数。

下层动作模型（VLA）： 控制机械臂关节、手爪、移动底盘。

精确定位、关系判断、运动推理、约束推理。ER 1.6 可以把 pointing 作为中间推理步骤——先标出关键点，再做进一步计算。上一版 ER 1.5 经常数错、产生幻觉，ER 1.6 全部答对。

融合多路摄像头画面，理解空间关系，在动态、遮挡、光线变化环境下准确判断任务是否完成。这步没做好，机器人就必须靠人盯着。

对抗性空间推理任务上，是历代 Gemini Robotics 模型中合规率最高的。与 Gemini 3.0 Flash 相比：文字场景高 6%，视频场景高 10%。

已通过 Gemini API 和 Google AI Studio 向开发者开放，模型 ID：gemini-robotics-er-1.6-preview。

以前的机器人「会动」，ER 1.6 让机器人「看懂」。