AI 机器人周报 #001:具身规划、VLA 新进展
Published:
本期关键词:具身规划 / VLA 泛化 / 奖励设计
论文精选
REVER: Reinforced Embodied Planning with Verifiable Reward
Zitong Bo et al., Xiaomi Robotics Lab & Zhejiang University, 2025
用可验证奖励对 VLM 做 RLHF,让模型生成长时序操作计划时保持物理合理性。核心思路是把计划序列和 ground-truth 做有序二分匹配打分,避免了人工标注稠密奖励的成本。实测在开放式规划任务上比最强 baseline 高 40%+。
亮点: 同一个 VLM 同时做 planner 和 monitor,运行时验证每步完成情况。
近期值得关注的趋势
- VLA 泛化瓶颈:数据分布是最大问题,UMI(Universal Manipulation Interface)这类硬件无关的数据采集方案正在成为新标准
- Chain-of-Thought 用于具身:语言推理链用在机器人规划上效果显著,但如何保证推理链的”可执行性”仍是开放问题
- 小模型 + 可验证奖励:比盲目堆大模型参数更有实用价值
本周工程实践
用 Claude Code 搭建了本周报页面框架(Jekyll + Liquid 模板),从需求到上线不到 1 小时。
AI Coding 在这类”知道要做什么,但不熟悉具体框架语法”的场景下效率极高。
下期预告:AgiBot GO-1 / ViLLA 架构拆解
