核心性质:
马尔可夫性:
一个随机过程在给定现在状态和所有历史状态的情况下,其未来状态的条件概率分布仅依赖于当前状态。即未来的转移和过去是独立的,只取决于现在。
马尔可夫决策过程 是顺序决策问题的数学模型,用于在随机性和不确定性的环境中模拟智能体的决策过程。
简单来说,它描述了一个场景:一个“智能体”在一个“环境”中,通过执行“动作”来在不同“状态”之间转换,从而获得“奖励”。它的目标是学习一个最佳策略,以最大化长期获得的总奖励。
一个MDP通常由五个元素构成:
-
S (状态集合):环境所有可能情况的集合。例如,在国际象棋中,就是所有棋盘布局;在机器人导航中,就是所有可能的位置。
-
A (动作集合):智能体在每个状态下可以执行的所有可能动作的集合。例如,机器人可以“前进”、“后退”、“左转”、“右转”。
-
P (状态转移概率):
P(s’| s, a)
。这是一个概率函数。它表示在状态s
下执行动作a
后,环境转换到新状态 s’ 的概率。这体现了环境的随机性。例如,机器人命令“前进”,但由于地面打滑,它有90%的概率成功前进,10%的概率滑到左边。 -
R (奖励函数):
R(s, a, s’)
。这是一个标量函数。它表示在状态s
执行动作a
并到达新状态s’
后,智能体从环境中获得的即时奖励。奖励是智能体学习的“指南针”,正奖励是“鼓励”,负奖励是“惩罚”。例如,机器人到达目标点获得+100奖励,撞到墙获得-10奖励,每走一步消耗能量获得-1奖励。 -
γ (折扣因子):一个介于0和1之间的数。它决定了我们对未来奖励的重视程度。
-
γ 接近 0:意味着智能体是“短视的”,只关心眼前利益。
-
γ 接近 1:意味着智能体是“有远见的”,会非常重视未来的长期回报。
-