Skip to content
Tolshao
Go back

强化学习笔记6:值函数估计Value function Approximation

introduction

v、q表的问题

solution

用带权重估计函数,估计v or q

v^(s,w)vπ(s) or q^(s,a,w)qπ(s,a)\begin{aligned} \hat{v}(s, \mathbf{w}) & \approx v_{\pi}(s) \\ \text { or } \hat{q}(s, a, \mathbf{w}) & \approx q_{\pi}(s, a) \end{aligned}

函数估计器

可谓函数逼近,需要函数式可微分的

这些不可微

incremental methods 递增方法

Gradient descent 梯度下降

值函数估计:随机梯度下降法SGD -w523

Table lookup 是 GD的一种特例

类似于机器学习的分类问题,将状态值写成0、1向量

-w290

Find a target for value function approximation

把估计函数作为一个监督学习 目标是谁呢,通过MC、TD方法,设定目标 -w439

生成训练集

For linear MC

-w335

For linear TD(0)

-w479

For linear TD(λ\lambda

-w427

δ\delta scalar number EtE_t 维度和s维度一致

Incremental Control Algorithms

用q函数,替代v函数 -w492

-w530

收敛性分析

-w527 引入Gradient TD,完全满足贝尔曼方程,无差 -w540

-w503

(√)表示在最优值函数附近振荡

batch methods

For least squares prediction

LS定义,估计误差平方,求和 -w495

相当于经历重现(experience replay)

-w526 找到使LS最小的权重wπw^\pi

Experience Replay in Deep Q-Networks (DQN)

Two features

算法流程

  1. Take action at according to ε-greedy policy
  2. Store transition (st,at,rt+1,st+1) in replay memory D
  3. Sample random mini-batch of transitions (s,a,r,s′) from D
  4. Compute Q-learning targets w.r.t. old, fixed parameters ww^−
  5. Optimise MSE between Q-network and Q-learning targets
Li(wi)=Es,a,r,sDi[(r+γmaxaQ(s,a;wi)Q(s,a;wi))2]\mathcal{L}_{i}\left(w_{i}\right)=\mathbb{E}_{s, a, r, s^{\prime}} \sim \mathcal{D}_{i}\left[\left(r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; w_{i}^{-}\right)-Q\left(s, a ; w_{i}\right)\right)^{2}\right]
  1. 用SGD更新 伪算法: 注意:

Features:

LS 最小二乘法 总结

LSP 直接求解

对于线性近似函数:

v^(s,w)=x(s)Tw\hat v(s,w) = x(s)^T w

最终的平衡状态,梯度=0 求解方程,得到w值关于状态s和v真值的函数关系 -w592 However,真值不知道 缺点是复杂度高,引入了矩阵的逆

Other algorithms

-w574 -w598 -w603


Share this post on:

Previous Post
为什么数值仿真里要用RK4(龙格库塔法)
Next Post
深度学习22张精炼图笔记总结