通过引入指数函数,加大范围差,使得算法倾向于更相信Q funciton: \pi\left(\mathbf{a}_{t} | \mathbf{s}_{t}\right) \propto \exp \left(Q_{\phi}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right) \\ 3. Value function learning theory 上面介绍完方法后,接下来就进入第三部分,这部分会...