Tolshao

博客八月 12, 2020

hexo 进阶设置指南（持续更新）

让hexo渲染MathJax复杂公式(默认的渲染引擎复杂公式会报错)Problem对复杂公式的支持不够好，简单公式可以显示，复杂编译错误，验证表明，问题不是mathjax.js导致，是默认hexo引擎编译导致html文本转义错误。ReasonHexo默认使用”hexo-renderer-marked

强化学习笔记八月 11, 2020

强化学习笔记7：策略梯度 Policy Gradient

之前的策略优化，用的基本都是ϵ\epsilon-greedy的policyimprove方法，这里介绍policygradient法，不基于v、q函数1.introduction策略梯度是以P(a∣s)P(a|s)入手，概率π(s,a)\pi(s,a)的形式，同样是modelfree的πθ(s,a)

博客八月 8, 2020

从0 -> 1，拥有你的免费个人博客之“打个前站”

为什么想写个博客耍？我们在生活和工作中会遇到的各种问题，现在基本都能从互联网上找到答案，因为个体相较于群体，所能接触到的面，太窄，也太小了。以前常去“百度知道”去搜答案，上网的门槛逐步降低之后，“知道”也不知道了，碎片化的问答里总是充斥着各种水军、广告，令人窒息。现在，你询问搜索引擎的问题，大多会在

工具八月 7, 2020

ios黄页：可算让iPhone好用了点儿

张小跳-ios黄页分享一个ios黄页工具，领取方式见文末黄页是什么说白了，可以理解为指电话号码簿，几乎世界每一个城市都有过这种纸张为载体所印制的电话号码本。【百度百科】定义：黄页是国际通用按企业性质和产品类别编排的工商企业电话号码簿，以刊登企业名称、地址、电话号码为主体内容，相当于一个城市或地区的工

笔记八月 5, 2020

为什么数值仿真里要用RK4（龙格库塔法）

一年级的时候搬砖搬多了，数分课也没好好上，回头一看，这么简单的东西，当时竟然整的稀里糊涂的。为什么要用RK4先po一张图，直观感受一下仿真的误差。对于给定线性常微分方程x˙=x\dotx=x易得，其解是x(t)=Cetx(t)=Ce^tRK4是龙格库塔法曲线，None是一阶解法x(t+dt)=x(t

强化学习笔记八月 5, 2020

强化学习笔记6：值函数估计Value function Approximation

introductionv、q表的问题解决离散化的s,a,导致q-table存储量、运算量大解决连续s、a的表示问题solution用带权重估计函数，估计vorqv^(s,w)≈vπ(s)orq^(s,a,w)≈qπ(s,a)\begin{aligned}\hat{v}(s,\mathbf{w})&

机器学习笔记八月 3, 2020

深度学习22张精炼图笔记总结

深度学习精炼图笔记总结本文转自知乎（Sophia）公众号【计算机视觉联盟】笔记图片由TessFerrandez整理，这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习，还适合机器学习从业者和研究者复习基本概念。这不仅仅是一份课程笔记，同时还是一套信息图与备忘录。从深度

机器学习笔记八月 3, 2020

Keras & Tensorflow 笔记

Keras是一个高层神经网络API，Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生，能够把你的idea迅速转换为结果，如果你有如下需求，请选择Keras：简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）支持

强化学习笔记八月 1, 2020

强化学习笔记5：无模型控制 Model-free control

适用于：MDPmodel未知：经验的采样可以获取MDPmodel已知：无法使用（e.g.原子级动力学），采样可以使用策略、非策略学习：On-policy：动作采样来自policyπ\piOff-policy：采样来自采样μ或来自于其他策略π\pi，On-policyMCcontrol贪婪策略梯度法如

机器学习笔记七月 23, 2020

深度学习-Coursera笔记

AI->机器学习分类图分类几种网络结构分类NN——回归预测CNN（convolutionNN）卷积神经网络——图片RNN(RecurrentNeuralNetwork）递归神经网络——声音、语言处理LSTM长短期记忆网络——激活函数sigmoidReLU——rectifiedlinearunit修正

机器学习笔记七月 15, 2020

卷积神经网络CNN（convolutional）

卷积神经网络CNN（convolutional）卷积运算：原图像*卷积核=新图像，经常用来做边缘检测人造核：手动指定权重，改善效果指定核权重为变量，通过反向传播，学习卷积核的权重补白和步幅决定了卷积后的补白PaddingValidconvolution：p=0n×n∗f×f−>(n−f+1)×(n−

控制理论笔记七月 15, 2020

控制理论笔记-2

高级控制理论Dr_canARC步骤

强化学习笔记七月 15, 2020

强化学习笔记4：无模型预测 model-free prediction

Introduction这一章，解决的是用prediction的方法，来评估策略π\pi的问题。对于Env来说，不是参数已知的MDP比如元组中a、s、P的关系不确定or未知Prediction->ControlEvaluation->Optimization蒙特卡洛法Monte-Carlolearn

强化学习笔记七月 10, 2020

强化学习笔记3：动态规划 planning by dynamic programming（DP）

规划，适用于MDP模型参数已知学习，适用于Env未知或部分未知概述动态规划分为两步，Prediction、Control（Prediction）Valueπ\pi的评价<s,Pπ,Rπ,γ>,π→Vπ<s,P^\pi,R^\pi,\gamma>,\pi\rightarrowV_\

笔记七月 8, 2020

MBSE 基于模型的系统工程

MBSE根据国际系统工程协会（INCOSE）在2007年发布的《SE愿景2020》中的定义，MBSE是建模方法在系统工程中的形式化应用，用以支持在系统全生命周期内开展需求、设计、分析、验证和确认相关的活动。从定义可以看到，MBSE是基于文档的传统系统工程工作模式的演进，力求以多视角的系统模型做为桥梁

1 2 3

Tolshao

之前的策略优化，用的基本都是ϵ\epsilon-greedy的policyimprove方法，这里介绍policygradient法，不基于v、q函数1.introduction策略梯度是以P(a∣s)P(a|s)入手，概率π(s,a)\pi(s,a)的形式，同样是modelfree的πθ(s,a)

introductionv、q表的问题解决离散化的s,a,导致q-table存储量、运算量大解决连续s、a的表示问题solution用带权重估计函数，估计vorqv^(s,w)≈vπ(s)orq^(s,a,w)≈qπ(s,a)\begin{aligned}\hat{v}(s,\mathbf{w})&

AI->机器学习分类图分类几种网络结构分类NN——回归预测CNN（convolutionNN）卷积神经网络——图片RNN(RecurrentNeuralNetwork）递归神经网络——声音、语言处理LSTM长短期记忆网络——激活函数sigmoidReLU——rectifiedlinearunit修正

高级控制理论Dr_canARC步骤

Introduction这一章，解决的是用prediction的方法，来评估策略π\pi的问题。对于Env来说，不是参数已知的MDP比如元组中a、s、P的关系不确定or未知Prediction->ControlEvaluation->Optimization蒙特卡洛法Monte-Carlolearn

规划，适用于MDP模型参数已知学习，适用于Env未知或部分未知概述动态规划分为两步，Prediction、Control（Prediction）Valueπ\pi的评价&#x3C;s,Pπ,Rπ,γ>,π→Vπ&#x3C;s,P^\pi,R^\pi,\gamma>,\pi\rightarrowV_\

规划，适用于MDP模型参数已知学习，适用于Env未知或部分未知概述动态规划分为两步，Prediction、Control（Prediction）Valueπ\pi的评价<s,Pπ,Rπ,γ>,π→Vπ<s,P^\pi,R^\pi,\gamma>,\pi\rightarrowV_\