第一课:一文读懂马尔科夫过程

1.马尔科夫决策过程（MDPs）简介

马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎所有的RL问题都能通过MDPs来描述：

最优控制问题可以用MDPs来描述;
部分观测环境可以转化成POMDPs;
赌博机问题是只有一个状态的MDPs;

注：虽然大部分DL问题都能转化为MDPs，但是以下所描述的MDPs是全观测的情况。

强化学习中的表述符号：

2.马尔科夫性

只要知道现在，将来和过去条件独立

定义：如果在t时刻的状态St满足如下等式，那么这个状态被称为马尔科夫状态，或者说该状态满足马尔科夫性。

马尔科夫性的要点：
状态St包含了所有历史相关信息
或者说历史的所有状态的相关信息都在当前状态St上体现出来
一旦St知道了，那么S1,S2, … ,St-1都可以被抛

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子