而DDQN不同,DDQN首先从Q网络中找到最大输出值的那个动作,然后再找到这个动作对应的Target Q网络的输出值。这么做的原因是传统的DQN通常会高估Q值得大小,两者代码差别如下: q_eval=self.eval_net(batch_state).gather(1,batch_action)q_next=self.target_net(batch_next_state).detach()ifself.double:#ddqnq_n...