Stable-Baselines3 能够处理不同类型的观测空间和动作空间,如离散或连续空间。它通过不同的策略网络来处理这些空间,例如对于离散动作空间,它可能使用一个输出动作概率的网络,而对于连续动作空间,它可能使用一个输出动作值的网络。在创建模型时,你只需提供环境,Stable-Baselines3 会自动推断所需的策略网络类型。 Stable-...
from stable_baselines3.common.callbacks import CheckpointCallback checkpoint_callback = CheckpointCallback(save_freq=1000, save_path=''./logs/'') ``` 其中,save_freq表示每隔多少步保存一次检查点,save_path表示检查点保存的路径。 接着,在训练模型时需要将checkpoint_callback作为参数传入fit方法中,代码如...