强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成:状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。
-
状态(S):描述了环境是什么样子。
-
动作(A):智能体可以做什么。
-
状态转移(P):环境如何响应动作。
-
奖励(R):定义了“好”与“坏”,是智能体唯一的学习目标。
-
折扣因子(γ):权衡即时奖励和未来奖励的重要性。
强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成:状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。
状态(S):描述了环境是什么样子。
动作(A):智能体可以做什么。
状态转移(P):环境如何响应动作。
奖励(R):定义了“好”与“坏”,是智能体唯一的学习目标。
折扣因子(γ):权衡即时奖励和未来奖励的重要性。