主要解决在 Markov Decision Process(MDP) 中优化长期reward的期望的问题。 强化学习也是现在非常热门的方向,在近几年的所有顶级计算机会议中,强化学习都有明显的增长趋势。 比如在ICML 2020 热门话题引用量最高的论文就是强化学习! 同时在12月30刚结束的首届谷歌足球Kaggle竞赛中,使用了深度强化学习的腾讯AI足球队—...