京东 JoyAI-RA：人类视频终于不再只是机器人论文里的陪衬数据

less than 1 minute read

Published: April 25, 2026

JoyAI-RA 最值得看的地方，不是它在 RoboCasa GR1 Tabletop 上拿了 63.2%，而是京东把一件很多人都知道难、但一直没真做通的事往前推了一步：人类操作视频，终于不再只是机器人论文里的陪衬数据。

统一动作表示

把不同数据源的末端执行器动作都写到相机坐标系下，用 6-DoF 位姿表示。人手轨迹和机器人轨迹放进同一套几何描述，后面用 action masking 兼容单臂夹爪、双臂、灵巧手。

最反直觉的点：只用机器人数据预训练，结果比不做任何预训练还差。EgoLive 只加 10% 几乎没用，全量加进去才跳到 87.42%。人类视频不是调味料，是要上规模才起作用的主数据源。

RoboTwin 2.0 SOTA（Easy 90.48%，Hard 89.28%）。RoboCasa GR1 比 GR00T-N1.6 高 15 个点。长链任务优势明显。

但 Cup、Croissant 这种精细操作还是输给 π0.5。人类视频能补”看懂世界”这层的缺口，但精细控制还得靠另外的路。

方向对，但别急着解读成”人类视频已经解决了机器人数据瓶颈”。它解决的是偏高层、偏语义、偏跨任务泛化的那一半。

原文：https://joyai-ra.github.io/