京东 JoyAI-RA:人类视频终于不再只是机器人论文里的陪衬数据

less than 1 minute read

Published:

JoyAI-RA 最值得看的地方,不是它在 RoboCasa GR1 Tabletop 上拿了 63.2%,而是京东把一件很多人都知道难、但一直没真做通的事往前推了一步:人类操作视频,终于不再只是机器人论文里的陪衬数据。

统一动作表示

把不同数据源的末端执行器动作都写到相机坐标系下,用 6-DoF 位姿表示。人手轨迹和机器人轨迹放进同一套几何描述,后面用 action masking 兼容单臂夹爪、双臂、灵巧手。

数据配方

  • 网络多模态数据 12%
  • 人类第一视角操作视频 EgoLive 33%
  • 仿真轨迹 24%
  • 真实机器人数据 31%

最反直觉的点:只用机器人数据预训练,结果比不做任何预训练还差。EgoLive 只加 10% 几乎没用,全量加进去才跳到 87.42%。人类视频不是调味料,是要上规模才起作用的主数据源。

跑分

RoboTwin 2.0 SOTA(Easy 90.48%,Hard 89.28%)。RoboCasa GR1 比 GR00T-N1.6 高 15 个点。长链任务优势明显。

但 Cup、Croissant 这种精细操作还是输给 π0.5。人类视频能补”看懂世界”这层的缺口,但精细控制还得靠另外的路。

方向对,但别急着解读成”人类视频已经解决了机器人数据瓶颈”。它解决的是偏高层、偏语义、偏跨任务泛化的那一半。

原文:https://joyai-ra.github.io/