Gemini Robotics-ER 1.6:谷歌机器人大脑的空间推理大幅升级

less than 1 minute read

Published:

谷歌 DeepMind 发布了 Gemini Robotics-ER 1.6,「具身推理」系列模型的重大升级。核心问题:让机器人从「能动」变成「看懂」——看懂空间关系,看懂任务完没完成,知道什么时候不该动。

什么是具身推理模型?

上层推理模型(ER 1.6): 看懂场景、拆解任务、判断每步是否完成、决定重试还是换策略。还可以调用 Google Search、第三方 VLA、用户自定义函数。

下层动作模型(VLA): 控制机械臂关节、手爪、移动底盘。

核心升级一:Pointing 空间推理

精确定位、关系判断、运动推理、约束推理。ER 1.6 可以把 pointing 作为中间推理步骤——先标出关键点,再做进一步计算。上一版 ER 1.5 经常数错、产生幻觉,ER 1.6 全部答对。

核心升级二:多视角成功检测

融合多路摄像头画面,理解空间关系,在动态、遮挡、光线变化环境下准确判断任务是否完成。这步没做好,机器人就必须靠人盯着。

安全性:历代最高合规率

对抗性空间推理任务上,是历代 Gemini Robotics 模型中合规率最高的。与 Gemini 3.0 Flash 相比:文字场景高 6%,视频场景高 10%。

已通过 Gemini API 和 Google AI Studio 向开发者开放,模型 ID:gemini-robotics-er-1.6-preview

以前的机器人「会动」,ER 1.6 让机器人「看懂」。