AI 机器人周报 #001:具身规划、VLA 新进展

less than 1 minute read

Published:

本期关键词:具身规划 / VLA 泛化 / 奖励设计


论文精选

REVER: Reinforced Embodied Planning with Verifiable Reward
Zitong Bo et al., Xiaomi Robotics Lab & Zhejiang University, 2025

用可验证奖励对 VLM 做 RLHF,让模型生成长时序操作计划时保持物理合理性。核心思路是把计划序列和 ground-truth 做有序二分匹配打分,避免了人工标注稠密奖励的成本。实测在开放式规划任务上比最强 baseline 高 40%+。

亮点: 同一个 VLM 同时做 planner 和 monitor,运行时验证每步完成情况。


近期值得关注的趋势

  • VLA 泛化瓶颈:数据分布是最大问题,UMI(Universal Manipulation Interface)这类硬件无关的数据采集方案正在成为新标准
  • Chain-of-Thought 用于具身:语言推理链用在机器人规划上效果显著,但如何保证推理链的”可执行性”仍是开放问题
  • 小模型 + 可验证奖励:比盲目堆大模型参数更有实用价值

本周工程实践

用 Claude Code 搭建了本周报页面框架(Jekyll + Liquid 模板),从需求到上线不到 1 小时。

AI Coding 在这类”知道要做什么,但不熟悉具体框架语法”的场景下效率极高。


下期预告:AgiBot GO-1 / ViLLA 架构拆解