强化学习笔记2:马尔科夫决策过程Markov decision process(MDP)


马尔科夫过程(Markov Process,MP)

我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

一个马尔科夫过程可以由一个元组组成$\langle\mathcal{S}, \mathcal{P}\rangle$

$\mathcal{S}$为(有限)的状态(state)集;
$\mathcal{P}$为状态转移矩阵, $$
P{s s^{\prime}}=\mathbb{P}\left(S{t+1}=s^{\prime} \mid S_{t}=s\right)

\begin{array}{c}
v{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v{\pi} \
v_{\pi}=\left(I-\gamma \mathcal{P}^{\pi}\right)^{-1} \mathcal{R}^{\pi}
\end{array}

\begin{aligned}
\mathcal{P}{s, s^{\prime}}^{\pi} &=\sum{a \in \mathcal{A}} \pi(a \mid s) \mathcal{P}{s s^{\prime}}^{a} \
\mathcal{R}
{s}^{\pi} &=\sum{a \in \mathcal{A}} \pi(a \mid s) \mathcal{R}{s}^{a}
\end{aligned}

Gt = R{t+1}+\gamma R{t+2} + … = \sum^\infty{k=0}\gamma^k R_{t+k+1}

v{\pi}(s)=\mathbb{E}{\pi}\left[G{t} \mid S{t}=s\right]

q{\pi}(s, a)=\mathbb{E}{\pi}\left[G{t} \mid S{t}=t, A_{t}=a\right]

v{\pi}(s)=\mathbb{E}{\pi}\left[R{t+1}+\gamma v{\pi}\left(S{t+1}\right) \mid S{t}=s\right]

q{\pi}(s, a)=\mathbb{E}{\pi}\left[R{t+1}+\gamma q{\pi}\left(S{t+1}, A{t+1}\right) \mid S{t}=s, A{t}=a\right]

v{\pi}(s)=\sum{a \in \mathcal{A}} \pi(a \mid s) q{\pi}(s, a) \ q{\pi}(s, a)=\mathcal{R}{s}^{a}+\gamma \sum{s^{\prime} \in \mathcal{S}} \mathcal{P}{s s^{\prime}}^{a} v{\pi}\left(s^{\prime}\right) \

描述了当前状态值函数和其后续状态值函数之间的关系,即状态值函数(动作值函数)等于瞬时回报的期望加上下一状态的(折扣)状态值函数(动作值函数)的期望。

贝尔曼最优方程

学习的目的是优化一个策略π使得值函数v or q最大

对于任意一个MDPs,存在一个$\pi*$使得$ v{\pi{*}}(s)=v{}(s), \quad q{\pi{}}(s, a)=q_{*}(s, a) $
可得,贝尔曼最优方程:

求解最优方程方法

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa


文章作者: Tolshao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Tolshao !
评论
  目录