强化学习 3—— 使用蒙特卡洛采样法（MC）解决无模型预测与控制问题

首页 › 文章标签 "强化学习 3—— 使用蒙特卡洛采样法（MC）解决无模型预测与控制问题"

一、问题引入回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程： 1、评估价值 (Evaluate) [v_{i}(s) = sum_{a ...