
智东西山东家具封边胶厂家
作者 | 陈骏达编辑 | 李水青机器人前瞻3月3日报道,今天,北京通用人工智能研究院(BIGAI)、宇树、上海交通大学和科技大学等机构联发布项新开源研究成果,该成果有望给人形机器人学习复杂运动的式带来明显提,且不在动作保真度与可扩展之间做艰难权衡。
该研究提出了种名为OMNIXTREME的新框架,成功让个机器人学会执行包括后空翻、托马斯全旋、武术踢击在内的数十种动态“限运动”,并在宇树G1机器人上实现了真实世界的成功率部署。
值得提的是,同型号的宇树机器人刚刚凭借在2026年春晚舞台上丝滑的后空翻、侧踢、跳马、耍双节棍乃至醉拳等系列武术动作而爆火出圈,不知道背后有没有OMNIXTREME框架的功劳。
▲真机部署(图源:项目官网)
长期以来,让机器人像人类样灵活运动,是机器人学域的核心追求。然而,个根蒂固的难题始终困扰着研究者:“保真度-可扩展权衡”。简单来说,让机器人模仿单个难度动作(如个后空翻)已能做到非常;但旦试图让个机器人学会几十个风格迥异、动态复杂的动作,其学习果就会大折扣——控制器变得保守、平庸,在具挑战的动作上频频失败。
其实,在早之前,宇树就已经关注到这问题。其创始人兼CEO兴兴曾在2025年世界机器人大会上谈道:目前机器人跳跳舞、格斗果已经不错,但面临个关键问题——“机器人强化学习的Scaling Law做得非常不好”。比如训练机器人做新动作、跳新舞蹈,每次都要从头开始。理论上,每次RL训练的速度应当越来越快,学习新技能的果也应当越来越好,但行业内目前还没人能真正实现这点。
针对上述挑战,OMNIXTREME研究团队提出了两阶段训练框架。实验结果表明,OMNIXTREME在包含LAFAN1和自建XtremeMotion限运动库的综测试中,追踪保真度远现有基线法。
▲OMNIXTREME部署成功率
在真实的宇树G1机器人上,OMNIXTREME让机器人在单策略完成了24种动态运动,157次试验的整体成功率达91.08,其中后空翻等动作成功率过96。
兴兴是这篇论文的署名作者之,位列倒数三位,按照学术圈惯例,这或许意味着他在这项研究中扮演了指者角。该论文的共同通讯作者、北京通用人工智能研究院具身机器人中心主任黄思远(Siyuan Huang)在社交媒体上透露,这是他们次与兴兴作发表论文,这是次颇有启发的经历。
▲北京通用人工智能研究院具身机器人中心主任黄思远发布文宣传该研究山东家具封边胶厂家
目前这篇论文所涉及的模型检查点和代码已经开源发布,研究团队还在项目官网提供了真机演示的。流匹配基础策略训练与理代码、剩余后训练和理代码以及C++真实部署代码未来也可能会开源。
论文地址:
https://arxiv.org/abs/2602.23843
项目地址:
https://extreme-humanoid.github.io
项目代码:
https://github.com/Perkins729/OmniXtreme
、机器人可扩展运动能力两大挑战:仿真学习瓶颈与物理可执行瓶颈OMNIXTREME研究团队认为,让机器人具备可扩展的、人类水平的全身运动技能,是通用人形机器人的终目标。
研究这能力的个核心途径是保真运动追踪:控制器需在接触和干扰下保持动态稳定,同时精确复现参考动作。这不仅是美学追求,是实现移动操作、表达交互等复杂人形机器人能力的基础。
近年来,基于学习的运动追踪取得长足进展,借助强化学习,单控制器已能精度完成舞蹈、空翻等动态动作。然而,随着运动库向大规模、多风格和复杂接触模式扩展,个难题持续浮现:追踪质量显著下降。
这困境源于当前训练流程中两个相互叠加的障碍。先是仿真中的学习瓶颈:现有法多采用简单的策略网络表示,面对异构动作目标时,其表达能力随数据多样增加而迅速饱和;同时,用强化学习统训练多任务会加剧梯度干扰,致动态行为上的保守平均或选择失败。
其次是物理可执行瓶颈:即便仿真中表现优异,迁移到真实机器人仍面临挑战,因为现有建模忽略了扭矩-速度非线、再生功率等关键驱动器特,这些因素在动态运动中会引发执行失稳。
为系统应对上述挑战,研究团队提出了OMNIXTREME框架。该框架通过流匹配策略进行“到统”的生成式预训练,以容量模型扩展表达能力,同时避开多任务强化学习的干扰。
随后引入残差强化学习后训练阶段,结考虑驱动特的建模、精细化随机化和功率安全约束,将预训练策略精炼至可真实执行。
该设计使单策略既能规模化学习多样化技能,又能稳健部署于物理硬件,有突破传统动态人形机器人控制中的保真度瓶颈。
二、三阶段完成策略训练,度对齐真实硬件特具体来看,OMNIXTREME的整体框架包含三个环环相扣的阶段。在预训练阶段山东家具封边胶厂家,研究者通过基于DAgger的流匹法训练出个统的基策略,其核心目标是从多个注于单运动的策略中,聚多样化的运动先验。
随后进入后训练阶段,此时预训练的基策略被冻结,个轻量的残差策略在严格的电机约束、激进的域随机化以及功率安全正则化下进行优化,旨在弥仿真环境与真实物理世界之间的动态差距。
后是机载部署阶段,整个理流程经过优化,能够实时且在机器人的机载计机上执行,泡沫板橡塑板专用胶从而确保在复杂物理环境中的鲁棒与敏捷控制。
▲OMNIXTREME框架
在可扩展的基于流的策略预训练中,问题被形式化为个蒸馏过程。观测空间涵盖了机器人的本体感觉信息、包含躯干姿态差异和参考运动目标的指令,以及过去的状态历史。
研究者的目标是为参考运动数据集中的每个运动先训练个策略,然后将这些知识蒸馏到个统的、基于流的通用策略中。这个数据集本身也具多样,融了LAFAN1、AMASS、MimicKit和Reallusion等多个来源的行为模式和动态动作,并统重定向到宇树G1机器人上。
策略的训练采用近端策略优化法,为每个特定运动生成个教师策略。而将多个知识统起来的关键在于流匹配目标函数。该函数通过学习个速度场,将随机噪声逐步向动作,从而掌握从任意状态生成正确动作的泛化能力。
为了在预训练阶段就为未来的真实部署下基础,研究团队在教师训练和流匹配训练中都采用了保真度保持的随机化和噪声策略。
尽管预训练的基策略已经具备了鲁棒的行为基础,但在面对真实世界复杂的物理应时,能差距依然存在。为此,研究者引入了考虑驱动特的后训练阶段,其核心是残差策略建模。
在冻结基策略后,个轻量的MLP残差策略被训练用来产生修正动作。基策略提供主要的行为指引,而残差策略则负责微调,共同生成终的控制指令,并通过PPO法以累积励为监督进行优化。
为了让残差策略能够应对真实世界的挑战,后训练环境中融入了大量考虑驱动特的物理约束。包括激进的域随机化(扰动范围和难度远预训练阶段)、初始姿态噪声、随机的地形台阶,并且特意放宽了终止阈值,允许策略在大偏差下进行探索和纠错。
其次是功率安全驱动正则化,通过引入对过大负向机械功率的惩罚,来抑制可能触发真实硬件过流保护或热应力的剧烈电机制动,尤其针对膝关节在动态冲击中的能量吸收过程进行约束。
后,后训练阶段还通过精细的扭矩-速度约束来弥驱动器建模的差距。研究者将真实的电机扭矩-速度工作包络线直接集成到仿真中,根据关节速度和扭矩向动态计允许的大扭矩,确保指令在物理上可实现。此外,还通过非线摩擦项进步模拟了驱动器内部的能量损耗。
这系列结构化的措施,使得终得到的控制器安全、对干扰鲁棒,并与真实硬件特度对齐。
三、平均成功率91.08,端到端理延迟仅10毫秒为验证OMNIXTREME在处理动态人形机器人控制任务中的能,研究团队建立了个双层架构的运动库,除了包含广泛使用的LAFAN1标准基准数据集外,还特别造了名为XtremeMotion的挑战数据集,其中包含翻转、霹雳舞、杂技和武术等60种具备动态强度和频繁接触切换的动作。
在与“从开始的强化学习”以及“到统MLP蒸馏”等基准法的对比中,OMNIXTREME在各项模拟指标上均表现优异,特别是在面对难度动作和未见过的运动序列时,其成功率和追踪精度的先优势为显著。
▲OMNIXTREME与其他法的对比
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
这证明了基于流匹配的生成式预训练能有地扩展模型的表示能力,而不会像传统法那样在运动类别增加时出现能崩塌。
在实际硬件部署面,研究者将该统策略应用于宇树G1人形机器人,并通过 TensorRT优化实现了约10毫秒的低端到端理延迟,确保机器人能以50Hz的频率在机载端实时执行。实验结果显示,OMNIXTREME能够在物理世界中稳定复现限平衡、速转向和复杂的全身协调动作,平均成功率达到91.08。
▲真机部署成功率
消融实验进步揭示了“动作感知后训练”的重要:通过引入针对电机转矩-速度特的物理建模、激进的域随机化,以及限制过度制动负载的功耗安全正则化,系统能有缓解模拟与现实之间的差距。
▲消融实验结果
具体而言,对于翻转等冲击动作,电机包络约束是关键;而对于霹雳舞等接触密集型技能,随机化和功耗监管则大幅提升了机器人处理接触干扰与硬件保护的能力,从而避了过流或电压不稳致的崩溃。
总体而言,这些实验证实了OMNIXTREME的可扩展,也为未来人形机器人迈向人类水平的灵巧运动提供了条可能的实践路径。
结语:破保真度与可扩展权衡后,下步将融入保真执行器特OMNIXTREME既缓解了规模扩大时的学习瓶颈,也解决了仿真到现实部署时的物理可执行瓶颈。让单统策略即可可靠执行多种限动作,破了传统上保真度与可扩展之间的权衡。
研究团队称,他们认为联扩展数据多样与模型容量对于提升人形机器人全身运动技能的泛化能力至关重要。随着基于学习的控制器被向动态、受硬件限制的场景,考虑执行器特的建模正成为学习流程中的关键组成部分。
未来,通过融入保真执行器特,如电流、功率、扭矩以及速度相关的约束,研究人员能够进步缩小仿真与现实的差距,确保学习到的行为能够缝迁移到物理人形机器人上。
相关词条:不锈钢保温 塑料管材设备 预应力钢绞线 玻璃棉板厂家 pvc管道管件胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定山东家具封边胶厂家,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。