该参数表示在初始时选择探索动作的概率。 4. `replace_target_iter`(目标网络更新频率): - 控制多少步之后更新目标网络的参数。目标网络的更新相对较慢,这有助于提高训练的稳定性。 5. `memory_size`(经验回放池大小): - 经验回放池用于存储智能体过去的经验,以便进行离线学习。这个参数定义了经验回放池的最大...