Posts

All the articles I've posted.

强化学习笔记10：经典游戏示例 classic games

27 Aug, 2020

介绍RL历史中的经典案例
强化学习笔记9：探索和利用 exploration and exploitation

23 Aug, 2020

利用让Agent更稳定，探索让Agent上限更高，二者不可得兼，平衡一下吧
解锁播放器的隐藏功能👀用过的都说好😎

21 Aug, 2020

教你用浏览器看电视，全球的频道都可以access，跳广告的什么的也都在这儿了
免费图床搭建:Github+Picgo+jsDelivr

19 Aug, 2020

免费图床，稳定可靠，结合CDN加速，棒了
强化学习笔记8：整合学习和规划

17 Aug, 2020

规划是基于模型的搜索，学习是基于数据的总结，二者结合，1+1>2
hexo 进阶设置指南（持续更新）

12 Aug, 2020

一点点装饰你的房子，让它变得更漂亮
强化学习笔记7：策略梯度 Policy Gradient

11 Aug, 2020

策略梯度法，可以实现不基于价值函数的动作选取，在训练过程中稳定性更优
从0 -> 1，拥有你的免费个人博客之“打个前站”

8 Aug, 2020

不买域名，不租服务器，不写html，跟我走
ios黄页：可算让iPhone好用了点儿

7 Aug, 2020

ios黄页，让你用iPhone打电话的时候快人一步
为什么数值仿真里要用RK4（龙格库塔法）

5 Aug, 2020

当然是因为他仿真精度高啊，为啥，进来看看吧小跳最近在搭建一个数值仿真环境，由于需要用到python里面的一些库，所以不得不把simulink的模型搬过来，我们都知道在simulink里，仿真的时候设置仿真步长和微分方程求解器是必要的步骤。但是为什么要设置这个小跳却早已忘记了。

Posts

强化学习笔记10：经典游戏示例 classic games

强化学习笔记9：探索和利用 exploration and exploitation

解锁播放器的隐藏功能👀用过的都说好😎

免费图床搭建:Github+Picgo+jsDelivr

强化学习笔记8：整合学习和规划

hexo 进阶设置指南（持续更新）

强化学习笔记7：策略梯度 Policy Gradient

从0 -> 1，拥有你的免费个人博客之“打个前站”

ios黄页：可算让iPhone好用了点儿

为什么数值仿真里要用RK4（龙格库塔法）