国内首个!逐际动力发布 LimX VGM 具身机器人操作算法
2025年02月14日,中国人形机器人公司「逐际动力LimX Dynamics」公布具身智能操作最新突破,发布基于视频生成大模型的具身操作算法(VideoGenMotion),简称LimX VGM。
LimX VGM通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示Prompts,即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程,全过程零真机样本数据,并且可实现多平台泛化。这是国内首次实现将人类操作数据直接应用于机器人操作。
具身智能的目标是替代人类完成改变物理世界的任务,为此需要大量、多样化且高质量的数据进行训练,数据来源包括真实数据、仿真数据和互联网数据。
相较于需要耗费巨额成本获取的真机及仿真数据,互联网及视频大模型中已有海量的人类操作视频,获取成本最低,且包含丰富的物理常识、行为轨迹及操作决策路径。
然而,如何把这些数据用起来,行业仍然在寻找行之有效的方法。️主要挑战包括:人类操作视频无法直接应用于机器人操作;大模型虽然能够根据这些视频生成行为轨迹和操作数据,但往往存在精度不足、偏离物理规律、存在幻觉等缺陷,即使数据准确,仍然无法直接应用于机器人操作。
通过LimX VGM,逐际动力实现了对人类操作视频中操作任务本质的理解和信息提取,从而弥合了人类操作与机器人操作之间的巨大差异,并创造性地提出了「数据-性能ROI」这一数据效率评估方法。
LimX VGM的工作流程包括三个关键步骤:
1. 训练阶段:采集若干真实人类操作的视频,对现有的视频生成大模型进行后训练。
2. 推理阶段:以初始场景结合任务操作指令作为提示Prompts,利用经过后训练的视频生成大模型生成带深度信息的人类操作视频,进而根据人类操作视频,生成机器人操作的行为。
3. 执行阶段:算法输出符合机器人操作逻辑的行为解算,由机器人执行相应的操作轨迹。
️LimX VGM背后是逐际动力三大具身技术核心创新点:人类操作视频到机器人操作策略及行为的桥接、空间智能的引入、算法与机器人本体的解耦。
LimX VGM不做视频生成大模型,而是利用当前已有的大模型框架,及其丰富的知识和超越人类的智力。因为视频生成大模型本质是历史数据的压缩,包括视频、图像、文本、合成等数据,其中包含的人类操作行为数据规模巨大、内容丰富。通过有效训练,LimX VGM能够从中提取对执行操作任务有用的关键信息,转化为机器人操作策略及行为。
具备这一能力后,LimX VGM只需额外采集少量的人类操作视频数据,即可用于机器人操作,全程零真机数据,让数据采集工作变得简单、成本低,且效率高。随着大模型这个“知识库”的不断升级,LimX VGM将具备更加丰富、全面的操作知识,生成更有效的操作策略,进一步提升算法的泛化性。
引入空间智能,突破2D生成视频的局限通过引入空间智能Spatial Intelligence模块,LimX VGM对视频生成大模型进行后训练时,引入深度信息,让生成的操作视频直接包含三维空间数据,这是让机器人能够进行物理空间操作的关键。LimX VGM深度信息的采集过程简单、易得且高效,仅需通过深度相机捕捉人手真实的操作过程即可。
算法与机器人本体的解耦,可跨平台部署LimX VGM的整个训练过程仅依靠人类操作视频,不涉及任何机器人本体;算法的真机部署仅需进行简单适配,便可实现跨硬件平台的直接操作执行。LimX VGM实现了算法与执行器的解耦,从根本上解决了算法与机器人本体耦合才能发挥作用的局限。
本次演示使用了KUKA、UR和求之三种机械臂,它们在构型、参数、能力等方面的差异巨大。对于同类的场景和操作,比如演示中的叠积木,同一个算法在三个机械臂上都能简单快速部署,并实现了一致的操作效果。
LimX VGM与机器本体解耦,即使机器人硬件不断推陈出新,也无需再对算法进行大幅调整及数据重新采集,实现操作能力在设备上的泛化性。
以数据驱动为核心,关注数据效能提升数据是具身智能广泛应用的最大壁垒。依赖真机或仿真数据采集这一方法,虽然获取的数据质量较高,但是效率低、成本高,同时需要解决场景固定、物体类别单一、Sim2Real差距大、本体耦合等多重挑战。因此,实现具身智能不仅需要找到采集有效数据的方法,数据利用率也是一个不可忽视的重要问题。
通过增加数据规模来提升泛化性能是行业的共识,逐际动力则更进一步,聚焦于数据成本到操作性能转化率的提升,不单一追求数据规模,或者数据质量,创造性地提出了「数据-性能ROI」这一评估方法,提升「数据-性能ROI」是具身操作大模型算法领先性的关键评价标准。
视频生成大模型本身是巨量人类操作数据的压缩和物理知识的储存和扩展,LimX VGM能够把视频数据应用在机器人操作上,等同于仅用极低成本,就拥有了海量的操作数据和一流的操作决策能力。
生成的视频带有深度信息,能够直接在三维物理空间应用。空间智能的引入,不仅让数据更容易获取,也进一步拓宽了操作自由度。
LimX VGM率先将人类的操作从三维空间抽象为机器人操作,让算法原本只能使用机器人操作数据拓宽到人类操作数据。