强化学习如何让机器狗在多种地形环境中实现稳定步态?

发布日期:2025-07-17 浏览次数:17

       随着智能制造与新能源领域无人化进程加速,传统轮式机器人在复杂地形中的局限性日益凸显。四足机器人凭借其仿生腿部结构展现出显著优势:相较于轮式平台具有更强的地形适应能力,相比双足构型则具备更高的运动稳定性与负载潜力。然而,其在动态平衡控制与多地形适应性等关键技术研究仍不足。


       研究团队聚焦四足机器人的运动控制方法,依托中科深谷CSPACE异构协同智脑系统开展研究,提出一种融合深度强化学习(DRL)与模型预测控制(MPC)的分层控制架构,可有效提升四足机器人感知、决策与执行能力,从而显著增强其在复杂多地形环境下的自主适应与稳定作业性能。


运动建模分析

       研究通过坐标系简化和几何法完成了四足机器人的正逆运动学分析,并在正运动学基础上进一步求解出速度雅可比矩阵和力雅可比矩阵,分析了单腿在空间中的可达工作空间。通过忽略单腿质量的方式建立了四足机器人简化动力学模型,给出了对应的状态空间方程,为支撑相模型预测控制器(MPC)的设计提供了模型基础。同时,利用拉格朗日方法对单腿进行动力学建模,推导出其动力学方程,为摆动相鲁棒轨迹跟踪控制器的设计奠定了模型基础。



图:四足机器人三维模型及简化示意图



图:四足机器人结构尺寸与动力学参数


步态时序规划

       首先规划了四足机器人的步态时序,主要包括行走步态、对角步态和奔跑步态。随后,针对机器人的平移与旋转运动,分别确定了期望的落足点位置。利用贝塞尔曲线规划了平移与旋转运动中摆动相足端的轨迹,通过设定合理的控制点,规划出速度与加速度平滑的足端轨迹,有效降低了足端抖动现象。最后,为应对斜坡等复杂地形,引入地形估计模块获取地形信息,使四足机器人能够自主调整机身姿态与期望落足点,以维持运动的稳定性与平衡性。


图:四足机器人步态参数


图:对角步态时序


运动控制策略

       针对机器人运动控制,研究采用模型预测控制(MPC)与鲁棒控制相结合的方法,分别设计了支撑相与摆动相控制器。其中,摆动相鲁棒轨迹跟踪控制器设计考虑了系统存在建模不精准和未知干扰等不确定性的影响,显著增强了四足机器人运动过程中的鲁棒性。最终,基于支撑相控制器及摆动相控制器构建出完整的四足机器人运动控制策略,并在仿真和实物平台上针对不同的地形进行验证分析。仿真与实验结果均证明了该运动控制策略的稳定性。


图:运动控制策略框图


分层控制策略——强化学习融合

       为应对运动控制策略中的MPC依赖固定权重矩阵参数优化目标、难以灵活适应多变地形的问题,本研究将近端策略优化(PPO)算法与MPC 深度融合,构建分层控制策略以提升四足机器人的多地形适应能力:PPO作为策略网络,实时分析机器人状态与环境信息,动态生成 MPC目标函数中的状态权重矩阵,以此调节下层控制策略对不同任务目标(如稳定性、能耗)的权衡; MPC基于更新后的权重矩阵求解最优控制指令。


图:分层控制策略框图


具体流程

►算法实现与训练:首先在仿真环境中实现分层控制策略算法;并在崎岖地形场景下对四足机器人进行训练,通过回合奖励曲线等验证了学习算法的有效性。

►仿真评估:在平坦地形和崎岖地形中进行仿真测试,用于评估训练的模型。通过机身姿态的变化验证分析了分层控制策略的有效性。结果表明,基于该控制方法的四足机器人具有较强的多地形自适应能力,可以在多种仿真地形环境中实现自适应稳定运动。


图:崎岖地形训练


►实物验证:将经训练后的控制策略迁移到实物四足机器人上进行实物实验。选取碎石路面模拟崎岖地形,实验表明四足机器人能够在碎石地形中完成稳定运动,进一步验证了分层控制策略的有效性。


图:崎岖地形运动实验


       这项研究成果为四足机器人的实际应用提供了有力支持,使其能够在复杂地形和环境中更加灵活、稳定地执行任务,将助力四足机器人在应急救援、野外勘探、军事巡检等领域展现更大潜力,为人类社会的发展注入新动能。


深谷开源智脑系统高效赋能科学研究

       中科深谷CSPACE异构协同智脑系统构架采取大模型、多模态感知、实时决策、建模与仿真和物理执行等,可以让智能体与物理环境动态实时信息交互,实现自主学习、决策与行动。系统以模块化、开放性为特点,用于解决智能体对环境和任务的建模、仿真、自主决策、自主控制过程,除了能控制单个智能体对象完成作业任务外,还具备群体智能控制能力,可以让更多的智能体融合到一起,开展分工协作任务。

       CSPACE智脑系统可为科研探索提供高效、可靠且通用便捷的综合性解决方案,有效助力前沿技术研究与创新突破。欢迎咨询!