actor的loss很小代表着actor几乎啥也没学到,实很可能现在几乎还是个随机模型。先看下actor的输出概率有...
首先你需要知道loss指的是什么,它是神经网络拟合器对策略(或者值函数)逼近好坏的反映。在强化学习中,...