文章提出了一种名为Masquerade的方法,通过编辑大规模的人类视频数据来缩小人类与机器人之间的视觉体现差距,从而提升机器人策略的学习效果。该方法通过估计3D手部姿态、修复人类手臂区域并叠加渲染的双臂机器人来生成“机器人化”的演示视频。实验表明,在三个具有挑战性的双手厨房任务中,Masquerade在未见过的场景中表现显著优于基线方法,成功率提高了5-6倍。研究还验证了机器人叠加和联合训练的重要性,并展示了性能随人类视频数据量的增加而提升的趋势。
机器人学习领域长期面临数据稀缺的挑战,即使是最大的机器人数据集,其规模和多样性也远不及推动语言和视觉领域突破的数据集。人类视频数据提供了丰富的补充资源,但由于人类与机器人之间的视觉体现差距,直接利用这些数据存在困难。文章提出的Masquerade方法通过数据编辑技术,将人类视频转化为机器人化的演示,从而显著提升了策略学习的性能。
Masquerade的核心在于将人类视频转换为机器人化的演示。具体步骤包括:首先估计每帧中的3D手部姿态,随后修复人类手臂区域,最后叠加一个模拟的双臂机器人,使其末端执行器轨迹与估计的手部姿态一致。这一流程生成了大量机器人化的视频数据,为后续策略学习提供了基础。
在预训练阶段,视觉编码器通过预测未来2D机器人关键点的任务进行训练。这一过程利用了编辑后的人类视频数据,并结合了语言描述的条件信息。实验表明,这种预训练方式能够有效提取丰富的视觉特征,为策略学习提供强有力的支持。
在策略学习阶段,文章采用了联合训练的方法,同时优化预训练目标和策略损失。这种方法不仅保留了从人类视频中学到的有价值表示,还显著提升了策略在未见场景中的泛化能力。实验验证了联合训练对性能提升的关键作用。
在三个双手厨房任务上的实验表明,Masquerade在未见场景中的表现显著优于基线方法。特别是在数据量增加的情况下,性能呈现对数级提升趋势。这些结果证实了通过数据编辑缩小视觉体现差距的有效性,为机器人学习提供了一种新的数据利用途径。