action被输入到机器人的控制器之前,做一个预处理,做一个clip截断,乘以一个scale,做完之后,再apply到机器人,计算reward和done(超时或者terminate),有done就reset,apply interval event,最后计算观测。
action可以直接控制机器人的关节,也可以是基于ik这个逆运动学求解joint action
地形
金字塔阶梯(20%)
阶梯高度0.05-0.22
阶梯宽度0.3
平台宽度3
倒金字塔阶梯(20%)
随机网格地形(20%)
网格宽度0.45
高度0.05-0.2
随机粗糙地形(20%)
噪声高度0.02-0.10
金字塔斜坡(10%)
坡度范围0,0-0。4
平台宽度2.0,边界宽度0.25
倒金字塔斜坡(10%)