一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 (Evaluate) [v_{i}(s) = sum_{a ...

关注我们的公众号

微信公众号