超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

AstraBrain-WBC 0.5 论文深度解读

作者丨齐铖湧

编辑丨林觉民

全球首个人形通用小脑GPT基座大模型来了。

在美国科罗拉多州丹佛会议中心举行的CVPR 2026现场，银河通用联合研究团队提出的AstraBrain-WBC 0.5，用一组数字直接刷新了行业认知：

▎引入"20亿帧最大人类行为数据规模"

▎真机实测效果，显著优于SONIC

▎零样本泛化成功率92.58%

史上最大规模、整整20亿帧人类动作数据，80.4M参数，零样本泛化成功率92.58%，把传统三层MLP的76.89%远远甩在身后，在MPJPE、MPJVE等多项指标上全面超越SONIC、TWIST、Any2Track等当前最优方法。

这是人形机器人运控领域前所未有的事。（雷峰网）

引入"最大人类行为数据规模"，真机实测超越SONIC

一个模型，没有任何预先编程，就能直接跟做从未见过的新动作。在室外泥地里拿起锄头干活，在家庭里丝滑稳定地撸猫/铲屎，在拳打脚踢下保持鲁棒，也能风度翩翩跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作，同样是零样本，无需针对任务微调。

这就是银河通用最新发布——全球首个人形通用小脑GPT基座大模型的含金量。

AstraBrain-WBC 0.5，作为全球首个人形机器通用小脑GPT基座大模型，有几个特点：第一是GPT式预训练，告别三层MLP，实现规模即智能。

它通过引入GPT式预训练+时序因果建模、加入超大规模数据训练，其中Transformer相比MLP，拥有更强的可扩展性，打破单一动作过拟合，实现了零样本泛化追踪全新动作。

再加上训练数据组最近邻检索，实现完全OOD泛化，以及谐波自编码器与聚类，重塑训练流程，让这个人形机器人运控领域的"GPT式大规模预训练系统"，呈现出几个显著亮点：

▎引入了"最大人类行为数据规模"。

从规模上看，AstraBrain-WBC 0.5包含了20亿帧、8000万参数，其中20亿帧可以简单等效于20亿token，这个数字已经比肩2018年GPT-1的量级（GPT-1约1.17亿参数），这是人形机器人运控领域有史以来最大规模的人类行为数据集。

比此前最常用的公开数据集AMASS（约720万帧）高出两个数量级，是业内同类跟踪模型训练集的200倍以上。

▎真机实测效果，显著优于SONIC。

真机实测中，在没有任何预先编程的前提下，不仅能拿锄头，跳华尔兹，还能完成武术踢腿、篮球运球投篮等高动态动作，而且全是零样本，无需针对任务微调。

在四个未见舞蹈动作的跟踪误差对比中，AstraBrain-WBC 0.5在MPJPE、MPJVE等多项指标上，显著优于SONIC、TWIST、Any2Track等当前最优方法；而当模型扩容到80.4M参数的AstraBrain-WBC 0.5，成功率跃升至92.58%，把三层MLP的76.89%远远甩在身后。

20亿帧，堪比2018年GPT-1的量级，Scaling Law在人形运动控制领域真实存在。

但这只是结果。要理解AstraBrain-WBC 0.5为什么能做到这些，得先看看它解决了什么问题。

在过去几年，人形机器人运动控制领域虽然发展很快，但"敏捷"、"稳定"和"泛化"始终不可兼得。有些方法能让人形机器人奔跑跳跃，完成舞蹈、武术动作，也有些方法让人形机器人泛化能力强，能跟踪更开放的动作输入，但一遇到复杂舞蹈、快速接触切换、或是"金鸡独立""叶问蹲"等平衡性动作，机器人全身大幅协调，就会变得僵硬，动作精度明显下降。要敏捷，就会牺牲稳定性和泛化性；要泛化，动作质量就打折扣。

AstraBrain-WBC 0.5正是冲着这个"不可能三角"去的。

AstraBrain-WBC 0.5解读：把全身运动视为"动作语言"

核心思想，可以概括为一句话：把人体全身运动看作一种"动作语言"，用处理自然语言的方式去理解和生成它。

https://arxiv.org/abs/2606.03985

论文中提到了GPT之所以能在文本领域实现通用智能，关键在于以下三方面：

▪海量且均衡的数据

▪因果Transformer架构的自回归预测能力

▪从大量"专家"中提炼出的通用表示（预训练语料）

AstraBrain-WBC 0.5团队认为，这三点同样适用于人形运动控制，于是先采集海量人类动作数据集，再用谐波运动嵌入方法让模型吃下数据，再经过专家经验的Transformer模型训练，最后在部署方面控制住推理延迟。完成了运控大模型的闭环。

我深扒了一下论文，具体来说，AstraBrain-WBC0.5的整套方案分为三个紧密衔接的阶段：数据基建、架构改造、双阶段训练。

▎第一、数据基建，解决"模型吃什么"的问题

人形机器人运控数据很稀缺，AstraBrain-WBC 0.5团队没有局限于某个单一数据集，而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多个来源的动作数据，再加上超过一千小时的高质量内部采集数据，统一重定向到宇树G1的29自由度关节空间。

但光是"堆数据"不够。不同动作的频率、幅度、风格差异巨大，直接混在一起训练，模型会"消化不良"。

AstraBrain-WBC 0.5团队引入了Harmonic Motion Embedding（HME，谐波运动嵌入）技术，基于动作的周期特征进行聚类，把约20亿帧原始数据切分成大约300个运动簇。

这一步非常关键。它相当于给动作数据做了一次"词性标注"和"句法分析"，让后续的训练更有条理。没有这一步，20亿帧数据就是一锅粥；有了这一步，它变成了一本结构清晰的词典。

▎第二、架构改造，解决"用什么吃数据"的问题

团队彻底抛弃了浅层MLP，改用GPT风格的Causal Transformer（因果Transformer）。这个选择不是跟风，而是有扎实的控制理论依据：在线动作跟踪本质上是一个时序预测问题，机器人每一步的决策都依赖于过去的状态和动作历史。Causal Transformer的"因果注意力"机制，天然适合处理这种"只能看过去、不能偷看未来"的场景。

相比MLP只能看当前几帧的"短视"，Transformer可以捕捉更长的时间上下文，理解动作的连贯性和节奏感。一个舞蹈动作失败，往往不是因为当前这一步错了，而是因为三步之前的重心没调好。Transformer的长记忆能力，让它能够"复盘"历史，做出更连贯的决策。

▎第三、双阶段训练，解决"怎么消化"的问题

团队没有天真地指望一个Transformer直接硬啃20亿帧数据。他们采用了"先分后总"的策略：第一阶段，为300个运动簇分别训练约300个PPO（近端策略优化）运动专家，让每个专家把自己那一类动作学到极致；

第二阶段，用DAgger（数据集聚合）算法，把这300个专家的经验蒸馏到单一的AstraBrain-WBC 0.5模型中，相当于专科会诊，再培养一个全科医生。专家策略负责在各自领域达到性能上限，蒸馏过程则负责把分散的知识整合成通用能力。

这三个阶段环环相扣，缺一不可。没有高质量的数据基建，Transformer就是无米之炊；没有架构升级，数据再多也装不进小容量的MLP；没有双阶段训练，大规模数据会导致训练不稳定、收敛困难。

这是一个系统工程，不是某个单点技术的突破。

架构创新：Transformer重构小脑，终结MLP时代

接下来聊聊AstraBrain-WBC 0.5的创新性。我觉得论文中首先值得一提的，是架构创新。

简单来说，用Transformer替代MLP，是首次实现人形运控模型的规模化扩展。

这是论文最直接、但也最容易被我们"理所当然化"的贡献。

这部分团队做了非常扎实的对比实验：在同样的2M token训练数据下，三层MLP的成功率是76.89%，8层TCN（时序卷积网络）提升到81.48%，而参数量仅5.7M的AstraBrain-WBC 0.5-S就达到了83.26%。

当数据量提升到20亿token、模型参数扩展到80.4M时，成功率跃升至92.58%。

论文中也给出了对比：当数据量达到最大的AstraBrain-WBC 0.5-L，在全部评测指标上几乎都实现性能最优。

这组数字说明了两件事。

第一，Transformer的容量天花板远高于MLP和TCN，能够持续从更多数据中"汲取营养"；第二，在人形运动控制领域，Scaling Law是真实存在的。

更值得注意的是，团队证明了Transformer在保持高容量的同时，依然可以满足实时控制的严苛要求。

这里面有个细节：团队通过ONNX导出、TensorRT编译、C++流式数据通道等工程优化，在单张RTX 4090显卡上把端到端推理延迟压到了1.5毫秒以下。作为对比，传统方案TWIST在CPU ONNX上的延迟是2.79—3.32毫秒。

这意味着，即便模型大了几十倍，真机部署时的响应速度依然比很多传统小模型更快。

这一点打破了"大模型必然慢"的偏见，为后续更大规模的模型奠定了基础。

20亿帧超大规模人类动作数据集：

首次验证小脑大模型 Scaling low

如果说架构创新是最容易被看见的，数据基建就是这篇论文中最容易被忽略的部分。

我们都知道，人形动作数据如果分布太窄，模型只会在窄分布里越来越熟。未来要接住各种动作，数据来源必须更杂。我看了下论文里提到的20亿帧、8000万参数的分布，这个参数量达到了“最大人类行为数据规模”，这体现出银河通用团队在数据积累层面的强大技术壁垒。

他们统一不同数据源的骨骼偏差、过滤低质量动作片段、进行时序分段和数据增广、通过HME聚类保证数据分布均衡。

在最终的数据集里，我又发现了一个细节。看右侧图表这样的配比，能看得出来，这个数据配比融入了各种数据来源，既保证了多样性，又避免了某些数据源的过度主导，明显是多次试验验证得到的。

某种意义上，它证实了一件事：只要你有足够的数据、足够的算力、足够好的架构，人形机器人的运动控制也能像自然语言一样，通过规模化实现质变。

零样本泛化关键：300个专家"会诊"1个模型

双阶段训练是整套系统的核心，也是炼成通用能力的关键。

在第一训练阶段，论文提到一个细节：AstraBrain-WBC 0.5团队没有把所有动作直接扔给一个模型硬学。它先用HME把动作分簇，再训练一批motion experts。AstraBrain-WBC 0.5的处理很直接：先承认动作分布不同，让专家各自把一块学稳，再把专家经验蒸馏回一个大模型。

训练这300个PPO专家，消耗了15000 GPU小时中的75%，投入是巨大的，但也是必要的。

第二阶段是蒸馏。团队用DAgger算法，让AstraBrain-WBC 0.5在专家策略生成的轨迹上学习，逐步把300个专家的"集体智慧"压缩到一个模型里。为防止越学越偏，用算法收集学生模型的"犯错数据"并交给专家重新标注，这就解决了"分布偏移"。

最终得到的AstraBrain-WBC 0.5，既保留了专家策略的高性能，又具备了单一模型的通用性和部署便利性。这是一种典型的"用工程复杂度换模型通用性"的思路，也是大模型时代常见的技术路线。

其实当时看论文看到这里，我想到一个现实问题：以后人形机器人底层运控如果真的走向基座化，算力账本可能不会只出现在VLA和世界模型里。身体这一层，也开始有自己的数据账本、专家账本和蒸馏账本。

从"只会走"到"全身动"：伯克利之后，谁把GPT范式推到了极致？

其实AstraBrain-WBC 0.5的工作，并不是凭空出现的范式创新。不少人看到这里，应该想到了2024年伯克利团队的《Humanoid Locomotion as Next Token Prediction》论文，它的核心思路是用"预测下一个token"的自回归方式做人形机器人的行走控制。

当时这篇论文在学术界引起了很大反响，因为它首次把GPT的范式引入机器人运动领域，证明了在单一行走任务上，自回归模型可以取得不错的效果。

而AstraBrain-WBC 0.5，则是在此基础上往前迈出了一大步。

伯克利的工作主要聚焦于行走（Locomotion），这是一个相对单一的任务域。行走虽然复杂，但本质上是一个周期性运动，状态空间相对有限。

而AstraBrain-WBC 0.5解决的是全身运动跟踪，涵盖走路、跑步、舞蹈、武术、搬运、倒地起身等极其丰富的动作类型。

从"只会走"到"全身都会动"，这中间的难度跨越不是线性的，而是指数级的。

更重要的是，AstraBrain-WBC 0.5实现了零样本泛化。

从效果上看，AstraBrain-WBC 0.5在多个维度实现了突破：

第一是高动态动作支持。真机实测视频中，机器人可以完成跳跃、快速转身、武术踢腿等动作。

很多人形动作失败，看起来发生在某一帧，根源往往在前面几步。节奏没接上，重心提前偏了，脚落点稍微错了一点，后面再想补就很难。Transformer真正有用的地方，是它给tracker更长的时间视野。

第二是超低延迟响应。端到端推理延迟低于1.5毫秒。在人形机器人控制中，延迟非常要命。每多一毫秒，机器人在受到扰动时的恢复窗口就小一分。

第三是鲁棒性。论文展示了机器人在受到外部推力、地面摩擦变化等干扰下的表现。这不是"死记硬背"某个动作轨迹，而是真正理解。

论文里，团队用四个未见舞蹈动作的真机跟踪误差横向对比AstraBrain-WBC 0.5与SONIC、TWIST、Any2Track，AstraBrain-WBC 0.5-B在多项指标上优于GMT、TWIST、Any2Track。

此外还有一个在线遥操作验证的实验：实时MoCap流持续重定向到G1关节空间，AstraBrain-WBC 0.5不额外微调，直接驱动机器人跟随。这些都是非常直观的突破。

银河通用重构人形机器人商业版图

最后，抛开顶会论文的学术意义，我们再聊聊AstraBrain-WBC 0.5的产业价值。

首先，AstraBrain-WBC 0.5作为一个预训练的"运控基座"，其他研究者可以直接零样本跟踪新的参考动作，大幅降低研究门槛。再加上开源了代码和部分工具，这意味着全球的研究者都可以在此基础上进行二次开发。

放在娱乐场景，AstraBrain-WBC 0.5让"一键生成复杂拟人化表演"成为可能。以后舞蹈编导可以给远在千里之外的机器人实时复现，迪士尼或者剧组的机器人拿到远程运控信号，就可以随时开跳。对于应急救援等严肃场景，AstraBrain-WBC 0.5的泛化能力也让机器人可以在未知环境中执行更复杂的身体任务。

最后，必须要说的是，AstraBrain-WBC 0.5也是具身头部公司银河通用的"银河星脑"的小脑部分。

银河星脑是全球首个集成"大脑-小脑-神经控制"于一体的全身全手端到端具身大模型，其中AstraBrain-WBC 0.5所擅长的，就是把高层指令转化为具体的关节运动。

回顾银河通用的发展轨迹，这家公司成立于2023年5月，短短两年多时间，已经完成了从零样本抓取、零售场景、导航基座到AstraBrain（全身全手大模型）的技术布局。

AstraBrain-WBC 0.5作为其中的"小脑"模块，不仅补齐了全身运动控制这块关键拼图，也为整个银河星脑的泛化能力提供了坚实的身体底座。

银河通用带领团队的这项工作，在学术领域最大的意义或许在于：在人形机器人运控领域已经找到了一条可扩展、可复现的技术路径，就像2018年的GPT-1的出现，虽然远不及今天的GPT-4，但它却奠定了一个路书。

而在商业视角下，AstraBrain-WBC 0.5的价值还在于它正在重构人形机器人的商业模型。

一个预训练的通用运控基座，意味着银河通用无需为每个新场景重新投入研发成本，舞蹈、巡检、救援共用同一套"身体操作系统"。

边际成本随部署规模递减，毛利率曲线将显著抬升。而零样本泛化能力大幅缩短了客户验证周期，从"定制开发"变成"即插即用"，客户获取速度有望复制软件行业的规模化扩张路径。（雷峰网）