AI 机器人周报 #001：具身规划、VLA 新进展

less than 1 minute read

Published: September 28, 2025

本期关键词：具身规划 / VLA 泛化 / 奖励设计

论文精选

REVER: Reinforced Embodied Planning with Verifiable Reward
Zitong Bo et al., Xiaomi Robotics Lab & Zhejiang University, 2025

用可验证奖励对 VLM 做 RLHF，让模型生成长时序操作计划时保持物理合理性。核心思路是把计划序列和 ground-truth 做有序二分匹配打分，避免了人工标注稠密奖励的成本。实测在开放式规划任务上比最强 baseline 高 40%+。

亮点： 同一个 VLM 同时做 planner 和 monitor，运行时验证每步完成情况。

近期值得关注的趋势

VLA 泛化瓶颈：数据分布是最大问题，UMI（Universal Manipulation Interface）这类硬件无关的数据采集方案正在成为新标准
Chain-of-Thought 用于具身：语言推理链用在机器人规划上效果显著，但如何保证推理链的”可执行性”仍是开放问题
小模型 + 可验证奖励：比盲目堆大模型参数更有实用价值

用 Claude Code 搭建了本周报页面框架（Jekyll + Liquid 模板），从需求到上线不到 1 小时。

AI Coding 在这类”知道要做什么，但不熟悉具体框架语法”的场景下效率极高。

下期预告：AgiBot GO-1 / ViLLA 架构拆解