核心概念与背景
标题拆解
论文题目是 《Hybrid Internal Model: Learning Agile Legged Locomotion with Simulated Robot Response》 。
- Hybrid Internal Model (HIM,混合内部模型): 这是作者提出的新方法。“混合”指的是它不仅关注显式的速度跟踪,还关注隐式的稳定性 。
- Agile Legged Locomotion (敏捷足式运动): 目标不是走得稳,而是要能跑、能跳、能爬楼梯,适应各种地形。
- Simulated Robot Response (仿真机器人响应): 这是核心创新点。它不直接去“猜测”地形是什么样的(比如摩擦力多少、坡度多少),而是去“猜测”机器人遇到地形后会产生什么反应 。
为什么要做这件事?(痛点)
在足式机器人控制中,通常面临两个大难题:
- “盲人摸象”: 机器人的传感器(IMU、电机编码器)只能感知自己(本体感知),很难准确知道外部环境的具体参数(比如地面摩擦系数、具体的凹凸不平程度) 。
- 传统方法的缺陷: 之前的流行做法是“Teacher-Student”(教师-学生)架构 。
- 先在仿真里用一个拥有上帝视角的“老师”策略(能看到摩擦力等所有信息)训练。
- 然后再训练一个“学生”策略去模仿老师,但学生只能看本体传感器数据。
- 问题: 这个模仿过程会有信息损失,导致效果打折,且训练流程复杂 。
论文的解决方案 (HIM)
作者提出了一种不依赖“环境参数估计”,也不需要复杂的“教师-学生”两阶段训练的方法:借鉴经典控制理论中的 Internal Model Control (IMC,内模控制) ,把所有外部环境因素(摩擦、地形高度等)都看作是干扰 (Disturbance) ,训练一个模型,根据机器人过去的一系列动作和传感器数据,去预测**“机器人接下来会发生什么反应”**(即 Response),如果能预测准这个反应,策略网络就能据此调整动作,抵抗干扰。
在技术手段上,使用了 对比学习 (Contrastive Learning) 来训练这个预测模型,而不是简单的回归(Regression) 。这提高了鲁棒性。
研究方法
系统的输入与输出 (What goes in, What comes out)
首先,要搞清楚控制器需要什么数据。
- 输入 (Proprioception $o_t^a$): 这是一个“盲”的输入,只有本体感知。
- 关节编码器: 关节位置 $\theta$ 和速度 $\dot{\theta}$ 。
- IMU: 基座的角速度 $\omega$ 和重力方向 $g_t$ 。
- 指令: 用户想要的速度(比如:前进 1.0 m/s)。
- 历史信息: 这一点很关键。模型不仅看当前这一帧,而是看过去 $H$ 帧的数据(论文中默认为 5帧)。
- 输出 (Action $a_t$):
- 直接输出 12 个电机的目标位置偏移量(Target Joint Positions)。这和标准的强化学习控制没有区别。
核心组件:混合内部模型 (Hybrid Internal Model, HIM)
即上图中间黄色的部分,也是论文最大的创新。它就像在控制回路里加了一个“直觉模块”,接收历史观测数据 $o_{t-H:t}^a$,然后吐出一个 “混合内部嵌入 (Hybrid Internal Embedding)” 给策略网络 。
这个“嵌入”由两部分组成,所以叫“混合 (Hybrid)”:
- 显式部分 ($\hat{v}_t$ - Velocity): 预测机器人的实际线速度。
- 作用: 让机器人知道自己实际跑得有多快(因为没有外部传感器,它很容易打滑,不知道自己其实没动)。
- 训练方式: 简单的监督学习(Regression),用仿真里的真值去监督它 。
- 隐式部分 ($\hat{l}_t$ - Implicit Response): 一个潜在向量(Latent Vector,维度为16)。
- 作用: 捕捉那些难以量化的“状态”,比如“脚下是不是很滑”、“刚才是不是绊了一下”。作者称之为“稳定性的隐式表达” 。
- 训练方式: 对比学习 (Contrastive Learning)。
训练方法:对比学习 (Why Contrastive?)
在上图的右上角,可以看到 “Pull Closer” 和 “Push Away” ,这是整篇文章的精华部分。
- 传统做法 (Regression): 试图让网络直接预测环境参数(例如:预测摩擦系数 = 0.5)。
- 缺点: 仿真里的摩擦系数 0.5 和现实世界的 0.5 可能完全不是一回事(Sim-to-Real Gap)。如果网络死记硬背这个数字,到了现实世界就傻了。
- 本文做法 (Contrastive Learning):
- 作者认为:不管环境参数是多少,“如果两段历史轨迹看起来很像,那么它们接下来的反应(下一帧状态)也应该很像”。
- 正样本对 (Positive Pair): 拿一段“历史观测” ($o_{t-H:t}$) 和它紧接着发生的“未来一帧状态” ($o_{t+1}$)。模型要把这两者的特征向量拉近 (Pull Closer) 。
作者使用了 SwAV (Swapping Assignments between Views) 算法来实现这个对比学习 。这是一种无监督学习方法,不需要人工标注“这是冰面”或“这是楼梯”,机器人自己通过大量试错就学会了归类。
实验验证
作者在 Unitree A1(小型狗)和 Aliengo(大型狗)上进行了测试。不仅仅是平地走,他们设计了三个极具挑战性的场景 :
- 长楼梯 (Long-range Stairs): 这是一个连续决策过程。
- 混合地形 (Compositional Terrain): 碎石路接楼梯。这对机器人的状态切换要求很高。
- 抗干扰 (Anti-disturbance):
- 拖拽测试 (Dragging): 在机器人腿上绑重物(模拟被草缠住或甚至电机老化阻力变大)。
- 侧向撞击 (Lateral Hit): 用重物从侧面撞击机器人。
该表比了 HIM 和 RMA (Rapid Motor Adaptation,之前的SOTA方法)。数据非常惊人:
- 短楼梯成功率: HIM 100% vs RMA 60%。这意味着 RMA 走两次大概率会摔一次,而 HIM 极其稳定。
- 抗拖拽能力: HIM 能承受 10kg 的拖拽,而 RMA 只能承受 10kg (虽然数字一样,但结合楼梯表现看,HIM 的综合鲁棒性更强)。
- 未知地形 (Unseen Terrains): 面对训练中没见过的“软坡 (Deformable Slope)”,HIM 成功率 55%,而 RMA 只有 10%。这证明了 HIM 的泛化能力更强。
注意 MoB (Multiplicity of Behavior) 和 Built-in MPC 这两列。它们在楼梯和复杂地形上的成功率几乎是 0。这说明传统的模型预测控制 (MPC) 和一些较早的学习方法在应对这种非结构化极端地形时,几乎完全失效。
作者通过设计消融实验,确定了“隐式响应”的重要性:
- 去掉速度预测 (w/o vel. inp.): 楼梯成功率从 100% 降到 85%。
- 去掉隐式响应 (w/o lat. inp.): 楼梯成功率从 100% 骤降到 50%。
- 结论: 那个通过对比学习训练出来的“隐式响应 (Internal Latent)”,才是这一整套系统的灵魂。它捕捉到了那些无法用语言描述的动态特性。
总结
这篇论文提出了一种高效、鲁棒的“盲式”足式机器人运动控制框架,核心在于利用对比学习来预测机器人的隐式响应,从而极大地提高了机器人对未知地形和干扰的适应能力。对于想要低成本实现高性能机器狗控制的开发者来说,这是目前性价比最高的复现方案之一。