1classCritic(object):2def__init__(self,sess,n_features,lr=0.01):3# 用 tensorflow 建立 Critic 神经网络,4# 搭建好训练的 Graph.56deflearn(self,s,r,s_):7# 学习状态的价值(state value),不是行为的价值(action value),8# 计算 TD_error=(r+v_)-v,9# 用 TD_error 评判这一步的行为有没...