1.通用奖励项:is_terminated,判断机器人是否终止
2.基座惩罚项
惩罚基座z方向的速度,鼓励机器人保持平衡
惩罚基座x,y方向上的角速度,鼓励机器人保持水平
3.关节惩罚项
惩罚关节加速度,鼓励平滑运动
关节位置限制惩罚,针对踝关节
4.动作惩罚
动作变化率惩罚权重为-0.002,鼓励动作平滑
5.速度跟踪奖励
线性速度跟踪和角速度跟踪
6.其他奖励
脚部空中时间奖励
脚部滑动惩罚(提高步态稳定性,保护硬件)
向上奖励(鼓励机器人保持直立姿态)
1.通用奖励项:is_terminated,判断机器人是否终止
2.基座惩罚项
惩罚基座z方向的速度,鼓励机器人保持平衡
惩罚基座x,y方向上的角速度,鼓励机器人保持水平
3.关节惩罚项
惩罚关节加速度,鼓励平滑运动
关节位置限制惩罚,针对踝关节
4.动作惩罚
动作变化率惩罚权重为-0.002,鼓励动作平滑
5.速度跟踪奖励
线性速度跟踪和角速度跟踪
6.其他奖励
脚部空中时间奖励
脚部滑动惩罚(提高步态稳定性,保护硬件)
向上奖励(鼓励机器人保持直立姿态)