清华大学:机器人练武功，用3%的数据居然比用全部数据练得更好？

这项由清华大学、北京大学、上海交通大学及上海期智研究院联合主导，并与GalBot公司合作完成的研究，于2026年6月发表，论文编号为arXiv:2606.06953。有兴趣深入了解的读者可以通过该编号查询完整论文。

研究团队给这套方法起了一个颇为直白的名字——LIMMT，全称"Less Is More for Motion Tracking"，翻译过来就是"动作追踪中少即是多"。这也是该领域第一项专门从数据质量角度系统研究人形机器人动作训练的工作。

**一、问题的根源：机器人学武功，为什么数据越多反而越差？**

先从一个生活场景说起。假设你要教一个小学生练书法。你有两种选择：一是给他一千张各种字迹的范本，其中混杂着潦草的、错误的、歪斜的；二是精心挑选出三十张笔画清晰、结构规范的优质范本。大多数人凭直觉就能判断，第二种方式往往更有效——因为糟糕的范本不仅没有帮助，还会干扰学生对"正确写法"的认知。

人形机器人学习动作的道理几乎一模一样。研究团队关注的核心问题，正是让机器人模仿人类动作的"动作追踪"技术。简单来说，这项技术的目标是：给机器人一段参考动作（比如一段跳舞、走路或跑跳的视频），让机器人用自己的身体把这段动作准确地还原出来，同时还不能摔倒、不能违反物理规律。这项能力是人形机器人实现各种复杂行为的基础——无论是走路、搬运物品，还是协助人类完成各种任务。

近年来，研究人员积累了海量的人体动作数据。其中最具代表性的是一个叫做AMASS的大型动作捕捉数据库，它汇集了来自15个不同光学标记数据集的动作片段，共有约一万四千条训练数据。与此同时，随着从网络视频中自动提取人体姿态技术的发展，动作数据的规模还在持续爆炸性增长。

然而，一个令人困惑的现象出现了：当研究人员把所有这些数据都喂给机器人去学习时，效果并没有随数据量的增加而持续提升，有时甚至适得其反。而业内顶尖的追踪系统，反而都还在使用规模较小但质量更高的数据集。这就像那个书法教学的悖论：更多的范本，未必带来更好的书法。

那么，问题究竟出在哪里？研究团队通过细致的分析发现，问题的核心在于数据中充斥着各种物理上"不可能发生"的动作。这些动作可能是在用摄像头估计人体姿态时产生的误差，也可能是在数据处理过程中引入的噪声。常见的毛病包括：人物突然漂浮在空中没有任何支撑、脚与地面发生穿透、关节运动速度超过了任何真实物理系统的极限，以及脚在静止状态下仍在地面上滑动等等。

当机器人的学习算法试图去模仿这些"不可能完成的动作"时，就好比让那个学书法的学生去临摹一张纸上画的"凌空悬浮的笔画"——这既不可能实现，还会把学生原本正确的认知搅乱。更糟糕的是，大量重复雷同的低质量数据（比如几千条几乎一样的普通走路片段）会让机器人的学习陷入一种"刷水题"的状态：表面上处理了大量数据，实际上没有学到任何新东西，计算资源也被大量浪费。

**二、重新定义"好数据"：三把衡量尺子**

面对这个问题，研究团队没有简单地说"去掉坏数据就行了"，而是提出了一个更系统的思考框架：一条动作数据究竟好不好，要从三个维度来衡量。这三个维度就像是一把三叉尺，缺少任何一叉都无法准确量出数据的价值。

第一个维度叫做"物理可行性"，简单说就是这个动作在现实世界中能不能被一个有血有肉、受物理规律约束的身体实际做出来。漂浮在空中的身体、穿透地面的脚、超速旋转的关节——这些都是物理上不可能发生的事情，对应的数据自然是需要清除的"毒素"。

第二个维度叫做"多样性"，类似于问：这批数据里，有没有足够多种类的动作？假如数据库里有九千九百条走路数据和一百条跳舞数据，那就算总量再大，机器人学到的也主要是怎么走路，碰到跳舞就抓瞎了。好的数据集需要在行为空间上有广泛的覆盖，就像一本词典不能只收录"的、地、得"这类常用字，还需要覆盖各种生僻字和专业词汇。

第三个维度叫做"复杂度"，考量的是动作本身有没有足够丰富的信息量。一段机器人站在原地纹丝不动的视频，或者慢悠悠地在平地上溜达，对机器人的学习贡献极为有限——因为这些动作太简单了，没有什么需要"思考"的地方。相反，一段高速跑跳、快速转身、或者充满节奏感的舞蹈动作，包含了丰富的速度变化、加速度变化和协调性信息，能够给机器人的学习提供更强的刺激和更丰富的训练信号。

这三个维度之间还有一个关键的顺序逻辑：必须先解决物理可行性，再考虑多样性，最后才是复杂度。原因很简单——如果先做多样性筛选，那些物理上根本不可能的动作（比如悬浮在空中的人）在特征上往往显得很"特别"，反而会被算法认为是"独特"的数据而优先保留，结果正好相反。就像在图书馆整理书籍，首先要把印刷错误的烂书扔掉，再考虑分类和选重点书目，而不是先选重点书目再发现很多都是废纸。

**三、GQS框架：一条三段式数据炼金流水线**

基于上述思考，研究团队设计了一套叫做GQS（通用质量筛选，General Quality Selection）的三阶段数据处理流水线。这套流水线的目标是：把一个大而杂乱的动作数据库，提炼成一个小而精华的训练数据集。

流水线的第一关叫做"物理过滤"，相当于用一张细密的筛网把明显有问题的数据筛掉。具体的做法是把每一条候选动作数据放进一个物理模拟器里重新"播放"一遍——不是让机器人真正去做，而是在电脑里模拟，看看这个动作在物理上是否能成立。模拟过程中，系统会同时盯着六种典型的物理违规：整个身体持续漂浮在空中（说明动作重建出现了灾难性错误）、身体部位钻入地面（地面穿透）、关节速度超过硬件极限（速度违规）、脚在地面上不正常滑动（足滑）、身体各部分相互碰撞（自碰撞），以及关节加速度突变（抖动）。

这六种违规被赋予了不同的权重，而这些权重并不是拍脑袋决定的，而是通过实验数据反推出来的。研究团队发现，"漂浮"和"足滑"是最有害的两类错误，必须重罚；而"速度高"和"抖动大"的动作往往意味着动作本身很激烈，这类动作反而对训练有益，如果过于严格地惩罚，就会把有价值的高难度动作误伤——因此这两类要轻罚甚至保留。最终，每条动作数据会得到一个综合物理质量分（满分100分），只有得分不低于90分的数据才能进入下一关。

这种分级惩罚的设计背后有一个朴素但重要的洞察：一个激烈跳跃动作导致的短暂"关节高速"和一个根本就无法在物理上实现的"悬空漂浮"，对训练的危害程度是完全不同的。把二者一刀切地同等对待，就会把婴儿连洗澡水一起倒掉。

通过第一关的数据进入第二关，这一关的任务是"建立语义地图"，即给每条通过筛选的动作数据分配一个在"动作宇宙"中的坐标位置，以便后续根据这个坐标来判断哪些数据彼此相似、哪些数据代表了独特的行为。

这里用到了一种叫做"周期自动编码器"（Periodic Autoencoder，简称PAE）的技术。这个名字听起来复杂，但背后的逻辑其实相当直觉化。人类的动作有一个非常突出的特点：绝大多数日常动作都是周期性的——走路是左右脚交替迈步的循环，跑步也是，跳舞更是。普通的特征提取方法（比如直接比较两个时间点上的关节角度）往往对这种周期性不敏感，两段几乎一样的走路动作，仅仅因为在时间轴上错开了半个周期，就可能被判断为"差异很大"，从而让系统误以为二者代表了两种不同的行为。

PAE的解决思路是：与其比较两段动作在某一时刻的具体姿态，不如提取动作的"节律特征"——也就是它的振幅（动作幅度有多大）和频率（动作速度有多快）。这就像比较两段音乐时，与其逐帧比较每一个音符，不如先看它们的整体节拍和音量包络是否相似。两段节拍和音量包络都类似的音乐，哪怕具体音符稍有不同，人耳听起来也会觉得"差不多"。

通过PAE，每条动作数据最终会被转化成一个固定长度的数字向量（可以理解为一个坐标），代表这条数据在"动作语义空间"中的位置。动作风格类似的数据，坐标也会比较接近；动作风格迥异的数据，坐标则会相距甚远。这样就建立起了一张能够客观反映动作多样性的"地图"。

流水线的第三关叫做"加权最远点采样"，这是整个框架中最具创意的一个环节。有了前一步建立的动作语义地图，现在需要从中挑选出一个小而精的子集来用于训练。挑选的核心目标是：尽可能地覆盖整张地图的各个角落，而不是扎堆选取某一类常见动作。

这个过程可以用"布点探险"来理解。假设你需要在一张地图上选100个营地，目标是让这100个营地尽量覆盖地图上的每一个角落，而不是全部挤在城市旁边。最直觉的做法是"最远点采样"：每次都选距离已选营地最远的那个点。这样选下来，营地的分布就会自然而然地均匀铺开，不会出现某个区域特别密集、而另一个区域完全空白的情况。

研究团队在这个基础上加入了"动作复杂度"的偏好：当两个候选数据在地图上的距离差不多的时候，优先选择那个动作更复杂、更激烈的（具体的度量方式是计算关节速度和加速度的能量）。就好比在荒野中选营地，当两个位置都同样偏远时，优先选择地形更复杂、更具挑战性的那个——因为在那里训练出的技能，未来的适应能力会更强。整个选择过程从最复杂的动作开始（确保起点就是最具挑战性的），然后不断向地图的其他区域扩展，直到选满目标数量为止。

**四、实验验证：3%的数据为什么能打败100%？**

理论讲完了，接下来是硬核的实验验证。研究团队在AMASS数据集上（约14000条训练片段）对两套主流的动作追踪系统进行了全面测试，这两套系统分别叫做Any2Track和TWIST2，都是当前业界最先进的追踪框架。

最核心的发现是：使用GQS方法筛选出的仅仅3%的数据（大约420条片段，总时长不足一小时）来训练机器人，在所有评测指标上都超过了用100%完整数据训练的结果。具体来说，对于Any2Track系统，使用3%的GQS数据训练后，动作追踪成功率达到了95.6%，而用全部数据训练只有94.2%；动作误差（关节位置均值误差）也从0.114降低到了0.108。对于TWIST2系统，GQS 3%数据的成功率达到86.1%，而全数据训练只有82.5%；关节误差从0.099降低到了0.092。

更能说明问题的是"随机抽取3%"的对比实验。研究团队专门设计了一个"随机取3%"的对照组，结果令人咋舌：随机抽取3%的数据进行训练，效果惨不忍睹，Any2Track的成功率暴跌至83.8%，TWIST2更是跌至64.9%——这表明，"用更少的数据"本身并不是秘诀，秘诀在于"用对的数据"。

研究团队还发现了一个"甜蜜点"：在GQS筛选后的数据中，选取约10%用于训练，能够达到最佳的性价比平衡点。在这个比例下，Any2Track的成功率进一步提升至95.9%，TWIST2也达到了86.8%——比全数据训练还要好，同时训练成本大幅降低。继续增加数据比例至90%甚至100%，带来的改善已经微乎其微，但计算开销却成倍增加。

学习曲线的对比同样富有启发性。研究团队记录了整个训练过程中奖励分数的变化，发现GQS数据训练的奖励曲线从一开始就显著高于全数据训练，并且在整个训练过程中始终保持领先。这说明GQS带来的优势并不是什么后期才显现的收益，而是从训练的最初阶段就在引导机器人走上一条更好的学习路径——就像书法启蒙阶段就打好了基础，之后的提升才会事半功倍。

在跨数据集的验证实验中，研究团队还在一个叫做PHUMA的高质量物理感知动作数据集上进行了测试。PHUMA本身经过了专业的物理合理性处理，因此物理过滤带来的提升相对有限，但多样性筛选和复杂度加权仍然带来了一致的改进。更有意思的是，用PHUMA的10%数据训练出的模型，在完全没有见过的AMASS测试集上也表现更好（成功率92.8%对91.0%），说明GQS数据选出的模型对于未见过的场景泛化能力更强——因为去掉了容易过拟合的冗余数据，模型反而学到了更通用的技能。

**五、拆解验证：每个环节究竟贡献了多少？**

为了精确地知道三个阶段各自贡献了多少，研究团队做了严格的消融实验——就是逐一"拆掉"每个组件，看看性能如何变化。

去掉物理过滤之后，成功率从95.6%急剧下降至91.1%，动作误差也明显恶化。这证实了物理过滤的不可或缺性：在低数据量的极端条件下，哪怕只有几条"有毒"的数据混入，就会严重拖累整体训练效果。

去掉多样性采样（即不做最远点采样，只靠物理过滤和复杂度选择）之后，成功率降至93.4%。这说明单纯堆砌"高难度动作"而忽视行为覆盖面，反而会让训练数据在行为空间上出现大片空白，机器人对于某些类型的动作就会完全没有经验。

去掉复杂度加权（即只做物理过滤和均匀最远点采样）之后，成功率为94.6%，已经相当不错了，但加上复杂度加权后的完整GQS仍然能多出约1个百分点的成功率。这1个百分点背后的含义是：在动作语义地图的每一个区域内，优先选择更有挑战性的代表样本，能让训练数据的"信息密度"进一步提升。

这个拆解验证的结论很清晰：三个阶段并非各自为战，而是存在协同效应。物理过滤清除了有害数据，为后续阶段建立了干净的起点；多样性采样确保了行为覆盖面的广度；复杂度加权则在广度的基础上进一步提升了每个样本的学习价值。顺序同样关键：如果颠倒顺序，就会产生前文分析过的问题。

**六、权重如何确定：科学分配六种"罪行"的刑罚**

在物理过滤中，六种违规行为的惩罚权重是如何确定的？研究团队采用了一种数据驱动的"刑罚标定"方法：分别对每一种违规指标独立地做过滤实验——即只保留某一项指标最好的90%数据，然后训练模型，看看性能如何变化。

实验结果非常有趣，六种指标被清晰地分成了三类。"浮空"和"足滑"属于"有毒指标"，去掉它们后性能明显提升，分别提升了约2.6和1.0个百分点，因此被赋予高惩罚权重。"地面穿透"和"抖动"属于中性指标，过滤这些数据对性能几乎没有显著影响，分配中等权重作为安全约束。而"速度违规"和"自碰撞"则属于"友好指标"——过滤掉这类数据后，性能反而下降了2.8和3.0个百分点！原因在于，关节速度高的动作往往就是高难度、高强度的动作，正是训练所需要的；而某些贴身格斗或舞蹈动作在形式上可能有短暂的"自碰撞"，却包含了极为丰富的协调性训练信息。如果把这类数据删掉，就是主动丢弃了最有价值的训练素材。这个发现颠覆了很多人对"物理合理性过滤"的直觉理解。

还有一个非常有价值的发现：仅仅按照物理质量分从高到低排序，表现最好的并不是物理分最高的那10%数据，而是物理分排在60%到70%之间的数据段，其成功率反而达到了96.3%。原因正是前面讨论过的：物理分满分的动作往往是极其保守的静止或慢速动作，缺乏动态丰富性；真正有价值的训练数据，是那些"物理上过关、但动作本身有相当复杂度"的数据。这进一步证明：单纯追求物理合理性并不等于选出了好的训练数据，必须把多样性和复杂度也纳入考量。

**七、真机部署：在真实机器人身上的检验**

再好的仿真结果，如果到了真实机器人上就失效，那也只是空中楼阁。研究团队将用GQS 10%数据训练的策略，直接部署到了宇树G1型号的真实人形机器人上，进行了包括中国功夫、老城路舞蹈（"Old Town Road"）、Can Do Can Go舞蹈，以及单腿跳跃和手持箱子等多种动作类别的追踪测试，每类动作进行了10次试验。

量化结果同样令人信服。在走路类动作上，GQS 10%策略和全数据策略都达到了10次全部成功，但前者的关节位置误差（0.0856 rad）明显低于后者（0.1037 rad），提升了约17%。在跳跃类动作上，GQS 10%达到了9次成功，全数据策略只有8次。在两段舞蹈动作上，GQS 10%分别达到8次和7次成功，而全数据策略只有7次和6次。平均而言，GQS 10%策略的真机成功率为85%，高于全数据策略的77.5%，平均关节误差也低了约15.8%。

值得强调的是，这个部署是"零样本"的——没有针对真实机器人进行任何额外的微调或调整，直接把仿真中训练好的策略拿来用。这种直接可用性在机器人领域非常珍贵，因为真实机器人和仿真环境之间总存在差距（被称为"仿真到现实的鸿沟"）。GQS数据之所以能帮助跨越这条鸿沟，研究团队认为有两个原因：物理过滤去除了那些在仿真中能侥幸应付、但在现实中必然失败的"虚假动作"；而复杂度加权选出的高难度动作，则让机器人在训练中就练习了各种极端情况，提高了对现实世界不确定性的鲁棒性。

**八、一个实用小工具：怎么快速决定用多少数据？**

对于想把GQS应用到自己数据集上的研究者或工程师，还有一个自然而然的问题：应该选多少比例的数据来训练？理论上需要做一系列实验来测试不同比例的效果，但这样做成本很高。研究团队针对这个问题提出了一个轻量级的估算方法，叫做"自适应比例选择"（Adaptive Ratio Selection，ARS）。

ARS的核心逻辑是：最优的数据比例，取决于这个数据集内部的"多样性密度"。如果一个数据集非常冗余（大量重复类似的动作），就应该更大力度地筛选，留下比例更小；如果一个数据集本身已经很多样化，那就需要保留更大比例以确保覆盖面。

量化这种"多样性密度"的方式是通过统计PAE嵌入向量的有效维度数——也就是说，这批数据的特征在高维空间里究竟"铺开"了多少个有实质意义的方向。用数学工具PCA（主成分分析）来提取，看需要多少个主成分才能解释95%的数据方差。如果数据非常单调，大部分数据特征都集中在少数几个方向上，有效维度就低；如果数据非常多样，特征分散在许多方向上，有效维度就高。

根据这个有效维度数，ARS给出的预测公式是：最优比例 ≈ 0.5 × （有效维度数/总维度数）的平方。在AMASS上，有效维度占总维度的47%，预测最优比例为11%，与实验观察到的10%高度吻合；在PHUMA上，有效维度占81%，预测为32.8%，与实验观察到的30%同样接近。这个工具虽然只在两个数据集上得到了验证，但提供了一个有价值的快速估算起点，能显著减少调参的试错成本。

说到底，这项研究给出的核心信息是：在人形机器人的运动学习领域，盲目堆积数据并不等于提升智能，真正推动进步的是数据的质量——具体体现在物理可行性、行为多样性和动作复杂度这三个维度的协同优化上。用3%的精华数据打败100%的原始数据，这个结论在直觉上反常，但实验一次次地给出了同样清晰的答案。

这件事对我们理解人工智能的学习机制有更广泛的启发意义：不仅在机器人领域，在语言模型、视觉模型乃至任何需要从数据中学习的系统中，数据质量的战略性角色都值得重新审视。当下这个"数据规模就是一切"的流行叙事，或许需要加上一个重要的注脚——前提是这些数据得有价值。

如果这个话题让你对数据质量与机器学习的关系产生了更多兴趣，可以通过论文编号arXiv:2606.06953查阅原文，深入了解每一个实验的具体细节和技术实现。

**Q&A**

Q1：LIMMT方法中的GQS三阶段筛选是什么意思？

A：GQS（通用质量筛选）分三步处理动作数据。第一步是把每条数据放进物理模拟器里检验，按六种物理违规打分，不合格的直接淘汰。第二步是用周期自动编码器把每条数据转换成一个代表"动作风格"的向量坐标，建立动作语义地图。第三步是在这张地图上通过"加权最远点采样"，均匀挑选覆盖面广且动作复杂度高的子集，作为最终训练数据。

Q2：为什么随机抽3%数据效果很差，而GQS挑选3%数据反而更好？

A：随机抽取3%会保留很多物理上不可能实现的"坏数据"，机器人试图模仿这些动作时会受到错误引导，同时数据分布完全继承了原数据集的不均衡（比如大量重复走路数据），没有有效覆盖多样的动作类型。GQS则先删掉了所有物理违规数据，再用算法确保选出的数据覆盖多种不同行为，并优先保留动作激烈、信息量大的片段，因此每一条数据都真实有效且互补性强。

Q3：GQS方法对机器人的实际部署有什么影响？

A：用GQS 10%数据训练的策略，在真实宇树G1机器人上的平均成功率（85%）比用全数据训练的高出约7.5个百分点，关节追踪误差平均降低约15.8%。更重要的是，这个策略不需要针对真实机器人做任何额外调整就能直接部署，说明GQS过滤掉了那些在仿真中能"蒙混过关"、在现实中却会失败的数据，同时复杂动作的训练提升了机器人应对现实不确定性的能力。