AstraBrain-WBC 0.5 论文深度解读

作者丨齐铖湧

编辑丨林觉民

全球首个人形通用小脑GPT基座大模型来了。

在美国科罗拉多州丹佛会议中心举行的CVPR 2026现场,银河通用联合研究团队提出的AstraBrain-WBC 0.5,用一组数字直接刷新了行业认知:

▎引入"20亿帧最大人类行为数据规模"

▎真机实测效果,显著优于SONIC

▎零样本泛化成功率92.58%

史上最大规模、整整20亿帧人类动作数据,80.4M参数,零样本泛化成功率92.58%,把传统三层MLP的76.89%远远甩在身后,在MPJPE、MPJVE等多项指标上全面超越SONIC、TWIST、Any2Track等当前最优方法。

这是人形机器人运控领域前所未有的事。(雷峰网)


01

引入"最大人类行为数据规模",真机实测超越SONIC

一个模型,没有任何预先编程,就能直接跟做从未见过的新动作。在室外泥地里拿起锄头干活,在家庭里丝滑稳定地撸猫/铲屎,在拳打脚踢下保持鲁棒,也能风度翩翩跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作,同样是零样本,无需针对任务微调。


这就是银河通用最新发布——全球首个人形通用小脑GPT基座大模型的含金量。

AstraBrain-WBC 0.5,作为全球首个人形机器通用小脑GPT基座大模型,有几个特点:第一是GPT式预训练,告别三层MLP,实现规模即智能。

它通过引入GPT式预训练+时序因果建模、加入超大规模数据训练,其中Transformer相比MLP,拥有更强的可扩展性,打破单一动作过拟合,实现了零样本泛化追踪全新动作。

再加上训练数据组最近邻检索,实现完全OOD泛化,以及谐波自编码器与聚类,重塑训练流程,让这个人形机器人运控领域的"GPT式大规模预训练系统",呈现出几个显著亮点:

引入了"最大人类行为数据规模"。

从规模上看,AstraBrain-WBC 0.5包含了20亿帧、8000万参数,其中20亿帧可以简单等效于20亿token,这个数字已经比肩2018年GPT-1的量级(GPT-1约1.17亿参数),这是人形机器人运控领域有史以来最大规模的人类行为数据集。

比此前最常用的公开数据集AMASS(约720万帧)高出两个数量级,是业内同类跟踪模型训练集的200倍以上。

真机实测效果,显著优于SONIC。

真机实测中,在没有任何预先编程的前提下,不仅能拿锄头,跳华尔兹,还能完成武术踢腿、篮球运球投篮等高动态动作,而且全是零样本,无需针对任务微调。

在四个未见舞蹈动作的跟踪误差对比中,AstraBrain-WBC 0.5在MPJPE、MPJVE等多项指标上,显著优于SONIC、TWIST、Any2Track等当前最优方法;而当模型扩容到80.4M参数的AstraBrain-WBC 0.5,成功率跃升至92.58%,把三层MLP的76.89%远远甩在身后。

20亿帧,堪比2018年GPT-1的量级,Scaling Law在人形运动控制领域真实存在。

但这只是结果。要理解AstraBrain-WBC 0.5为什么能做到这些,得先看看它解决了什么问题。

在过去几年,人形机器人运动控制领域虽然发展很快,但"敏捷"、"稳定"和"泛化"始终不可兼得。有些方法能让人形机器人奔跑跳跃,完成舞蹈、武术动作,也有些方法让人形机器人泛化能力强,能跟踪更开放的动作输入,但一遇到复杂舞蹈、快速接触切换、或是"金鸡独立""叶问蹲"等平衡性动作,机器人全身大幅协调,就会变得僵硬,动作精度明显下降。要敏捷,就会牺牲稳定性和泛化性;要泛化,动作质量就打折扣。


AstraBrain-WBC 0.5正是冲着这个"不可能三角"去的。


02

AstraBrain-WBC 0.5解读:把全身运动视为"动作语言"

核心思想,可以概括为一句话:把人体全身运动看作一种"动作语言",用处理自然语言的方式去理解和生成它。


https://arxiv.org/abs/2606.03985

论文中提到了GPT之所以能在文本领域实现通用智能,关键在于以下三方面:

▪海量且均衡的数据

▪因果Transformer架构的自回归预测能力

▪从大量"专家"中提炼出的通用表示(预训练语料)

AstraBrain-WBC 0.5团队认为,这三点同样适用于人形运动控制,于是先采集海量人类动作数据集,再用谐波运动嵌入方法让模型吃下数据,再经过专家经验的Transformer模型训练,最后在部署方面控制住推理延迟。完成了运控大模型的闭环。

我深扒了一下论文,具体来说,AstraBrain-WBC0.5的整套方案分为三个紧密衔接的阶段:数据基建、架构改造、双阶段训练。

▎第一、数据基建,解决"模型吃什么"的问题

人形机器人运控数据很稀缺,AstraBrain-WBC 0.5团队没有局限于某个单一数据集,而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多个来源的动作数据,再加上超过一千小时的高质量内部采集数据,统一重定向到宇树G1的29自由度关节空间。


但光是"堆数据"不够。不同动作的频率、幅度、风格差异巨大,直接混在一起训练,模型会"消化不良"。

AstraBrain-WBC 0.5团队引入了Harmonic Motion Embedding(HME,谐波运动嵌入)技术,基于动作的周期特征进行聚类,把约20亿帧原始数据切分成大约300个运动簇。

这一步非常关键。它相当于给动作数据做了一次"词性标注"和"句法分析",让后续的训练更有条理。没有这一步,20亿帧数据就是一锅粥;有了这一步,它变成了一本结构清晰的词典。

▎第二、架构改造,解决"用什么吃数据"的问题

团队彻底抛弃了浅层MLP,改用GPT风格的Causal Transformer(因果Transformer)。这个选择不是跟风,而是有扎实的控制理论依据:在线动作跟踪本质上是一个时序预测问题,机器人每一步的决策都依赖于过去的状态和动作历史。Causal Transformer的"因果注意力"机制,天然适合处理这种"只能看过去、不能偷看未来"的场景。

相比MLP只能看当前几帧的"短视",Transformer可以捕捉更长的时间上下文,理解动作的连贯性和节奏感。一个舞蹈动作失败,往往不是因为当前这一步错了,而是因为三步之前的重心没调好。Transformer的长记忆能力,让它能够"复盘"历史,做出更连贯的决策。

▎第三、双阶段训练,解决"怎么消化"的问题

团队没有天真地指望一个Transformer直接硬啃20亿帧数据。他们采用了"先分后总"的策略:第一阶段,为300个运动簇分别训练约300个PPO(近端策略优化)运动专家,让每个专家把自己那一类动作学到极致;

第二阶段,用DAgger(数据集聚合)算法,把这300个专家的经验蒸馏到单一的AstraBrain-WBC 0.5模型中,相当于专科会诊,再培养一个全科医生。专家策略负责在各自领域达到性能上限,蒸馏过程则负责把分散的知识整合成通用能力。


这三个阶段环环相扣,缺一不可。没有高质量的数据基建,Transformer就是无米之炊;没有架构升级,数据再多也装不进小容量的MLP;没有双阶段训练,大规模数据会导致训练不稳定、收敛困难。

这是一个系统工程,不是某个单点技术的突破。


03

架构创新:Transformer重构小脑,终结MLP时代

接下来聊聊AstraBrain-WBC 0.5的创新性。我觉得论文中首先值得一提的,是架构创新。

简单来说,用Transformer替代MLP,是首次实现人形运控模型的规模化扩展。

这是论文最直接、但也最容易被我们"理所当然化"的贡献。

这部分团队做了非常扎实的对比实验:在同样的2M token训练数据下,三层MLP的成功率是76.89%,8层TCN(时序卷积网络)提升到81.48%,而参数量仅5.7M的AstraBrain-WBC 0.5-S就达到了83.26%。

当数据量提升到20亿token、模型参数扩展到80.4M时,成功率跃升至92.58%。

论文中也给出了对比:当数据量达到最大的AstraBrain-WBC 0.5-L,在全部评测指标上几乎都实现性能最优。

这组数字说明了两件事。

第一,Transformer的容量天花板远高于MLP和TCN,能够持续从更多数据中"汲取营养";第二,在人形运动控制领域,Scaling Law是真实存在的。

更值得注意的是,团队证明了Transformer在保持高容量的同时,依然可以满足实时控制的严苛要求。

这里面有个细节:团队通过ONNX导出、TensorRT编译、C++流式数据通道等工程优化,在单张RTX 4090显卡上把端到端推理延迟压到了1.5毫秒以下。作为对比,传统方案TWIST在CPU ONNX上的延迟是2.79—3.32毫秒。


这意味着,即便模型大了几十倍,真机部署时的响应速度依然比很多传统小模型更快。

这一点打破了"大模型必然慢"的偏见,为后续更大规模的模型奠定了基础。


04

20亿帧超大规模人类动作数据集:

首次验证小脑大模型 Scaling low

如果说架构创新是最容易被看见的,数据基建就是这篇论文中最容易被忽略的部分。

我们都知道,人形动作数据如果分布太窄,模型只会在窄分布里越来越熟。未来要接住各种动作,数据来源必须更杂。我看了下论文里提到的20亿帧、8000万参数的分布,这个参数量达到了“最大人类行为数据规模”,这体现出银河通用团队在数据积累层面的强大技术壁垒。

他们统一不同数据源的骨骼偏差、过滤低质量动作片段、进行时序分段和数据增广、通过HME聚类保证数据分布均衡。

在最终的数据集里,我又发现了一个细节。看右侧图表这样的配比,能看得出来,这个数据配比融入了各种数据来源,既保证了多样性,又避免了某些数据源的过度主导,明显是多次试验验证得到的。


某种意义上,它证实了一件事:只要你有足够的数据、足够的算力、足够好的架构,人形机器人的运动控制也能像自然语言一样,通过规模化实现质变。


05

零样本泛化关键:300个专家"会诊"1个模型

双阶段训练是整套系统的核心,也是炼成通用能力的关键。

在第一训练阶段,论文提到一个细节:AstraBrain-WBC 0.5团队没有把所有动作直接扔给一个模型硬学。它先用HME把动作分簇,再训练一批motion experts。AstraBrain-WBC 0.5的处理很直接:先承认动作分布不同,让专家各自把一块学稳,再把专家经验蒸馏回一个大模型。

训练这300个PPO专家,消耗了15000 GPU小时中的75%,投入是巨大的,但也是必要的。


第二阶段是蒸馏。团队用DAgger算法,让AstraBrain-WBC 0.5在专家策略生成的轨迹上学习,逐步把300个专家的"集体智慧"压缩到一个模型里。为防止越学越偏,用算法收集学生模型的"犯错数据"并交给专家重新标注,这就解决了"分布偏移"。


最终得到的AstraBrain-WBC 0.5,既保留了专家策略的高性能,又具备了单一模型的通用性和部署便利性。这是一种典型的"用工程复杂度换模型通用性"的思路,也是大模型时代常见的技术路线。

其实当时看论文看到这里,我想到一个现实问题:以后人形机器人底层运控如果真的走向基座化,算力账本可能不会只出现在VLA和世界模型里。身体这一层,也开始有自己的数据账本、专家账本和蒸馏账本。


06

从"只会走"到"全身动":伯克利之后,谁把GPT范式推到了极致?

其实AstraBrain-WBC 0.5的工作,并不是凭空出现的范式创新。不少人看到这里,应该想到了2024年伯克利团队的《Humanoid Locomotion as Next Token Prediction》论文,它的核心思路是用"预测下一个token"的自回归方式做人形机器人的行走控制。

当时这篇论文在学术界引起了很大反响,因为它首次把GPT的范式引入机器人运动领域,证明了在单一行走任务上,自回归模型可以取得不错的效果。

而AstraBrain-WBC 0.5,则是在此基础上往前迈出了一大步。

伯克利的工作主要聚焦于行走(Locomotion),这是一个相对单一的任务域。行走虽然复杂,但本质上是一个周期性运动,状态空间相对有限。

而AstraBrain-WBC 0.5解决的是全身运动跟踪,涵盖走路、跑步、舞蹈、武术、搬运、倒地起身等极其丰富的动作类型。

从"只会走"到"全身都会动",这中间的难度跨越不是线性的,而是指数级的。

更重要的是,AstraBrain-WBC 0.5实现了零样本泛化。


从效果上看,AstraBrain-WBC 0.5在多个维度实现了突破:

第一是高动态动作支持。 真机实测视频中,机器人可以完成跳跃、快速转身、武术踢腿等动作。

很多人形动作失败,看起来发生在某一帧,根源往往在前面几步。节奏没接上,重心提前偏了,脚落点稍微错了一点,后面再想补就很难。Transformer真正有用的地方,是它给tracker更长的时间视野。

第二是超低延迟响应。 端到端推理延迟低于1.5毫秒。在人形机器人控制中,延迟非常要命。每多一毫秒,机器人在受到扰动时的恢复窗口就小一分。

第三是鲁棒性。 论文展示了机器人在受到外部推力、地面摩擦变化等干扰下的表现。这不是"死记硬背"某个动作轨迹,而是真正理解。

论文里,团队用四个未见舞蹈动作的真机跟踪误差横向对比AstraBrain-WBC 0.5与SONIC、TWIST、Any2Track,AstraBrain-WBC 0.5-B在多项指标上优于GMT、TWIST、Any2Track。


此外还有一个在线遥操作验证的实验:实时MoCap流持续重定向到G1关节空间,AstraBrain-WBC 0.5不额外微调,直接驱动机器人跟随。这些都是非常直观的突破。


07

银河通用重构人形机器人商业版图

最后,抛开顶会论文的学术意义,我们再聊聊AstraBrain-WBC 0.5的产业价值。

首先,AstraBrain-WBC 0.5作为一个预训练的"运控基座",其他研究者可以直接零样本跟踪新的参考动作,大幅降低研究门槛。再加上开源了代码和部分工具,这意味着全球的研究者都可以在此基础上进行二次开发。


放在娱乐场景,AstraBrain-WBC 0.5让"一键生成复杂拟人化表演"成为可能。以后舞蹈编导可以给远在千里之外的机器人实时复现,迪士尼或者剧组的机器人拿到远程运控信号,就可以随时开跳。对于应急救援等严肃场景,AstraBrain-WBC 0.5的泛化能力也让机器人可以在未知环境中执行更复杂的身体任务。

最后,必须要说的是,AstraBrain-WBC 0.5也是具身头部公司银河通用的"银河星脑"的小脑部分。

银河星脑是全球首个集成"大脑-小脑-神经控制"于一体的全身全手端到端具身大模型,其中AstraBrain-WBC 0.5所擅长的,就是把高层指令转化为具体的关节运动。

回顾银河通用的发展轨迹,这家公司成立于2023年5月,短短两年多时间,已经完成了从零样本抓取、零售场景、导航基座到AstraBrain(全身全手大模型)的技术布局。


AstraBrain-WBC 0.5作为其中的"小脑"模块,不仅补齐了全身运动控制这块关键拼图,也为整个银河星脑的泛化能力提供了坚实的身体底座。

银河通用带领团队的这项工作,在学术领域最大的意义或许在于:在人形机器人运控领域已经找到了一条可扩展、可复现的技术路径,就像2018年的GPT-1的出现,虽然远不及今天的GPT-4,但它却奠定了一个路书。

而在商业视角下,AstraBrain-WBC 0.5的价值还在于它正在重构人形机器人的商业模型。

一个预训练的通用运控基座,意味着银河通用无需为每个新场景重新投入研发成本,舞蹈、巡检、救援共用同一套"身体操作系统"。

边际成本随部署规模递减,毛利率曲线将显著抬升。而零样本泛化能力大幅缩短了客户验证周期,从"定制开发"变成"即插即用",客户获取速度有望复制软件行业的规模化扩张路径。(雷峰网)