当使用off-policy RL算法时,经验回放器的大小(buffer size/replay capacity)是超参数之一,数值的设定会对训练结果产生影响。以下内容出自我的实验结果以及阅读过的论文/博文,十分主观,欢迎批判和交流。 经验回放器的大小和任务相关。对于简单任务(total timesteps≤1e6),buffer size可能1e3、1e4就足够了。对于复杂任...
sac.py", line 245, in train target_q_values = replay_data.rewards + (1 - replay_data.dones) * self.gamma * next_q_values RuntimeError: The size of tensor a (53) must match the size of tensor b (256) at non-singleton dimension 0 Originally posted by @tudorjnu in #1335 (comm...