PPO算法也是Actor-Critic架构,但是与DDPG不同,PPO为on-policy算法,所以不需要设计target网络,也不需要ReplayBuffer, 并且Actor和Critic的网络参数可以共享以便加快学习。PPO引入了重要度采样,使得每个episode的数据可以被多训练几次(实际的情况中,采样可能非常耗时)从而节省时间,clip保证的更新的幅度不会太大。 importtorch...
先看下actor的输出概率有没有收敛(某些动作的概率比较大),原因应该就是reward太sparse ...
先看下actor的输出概率有没有收敛(某些动作的概率比较大),原因应该就是reward太sparse可以采用Curiosity...
PPO算法也是Actor-Critic架构,但是与DDPG不同,PPO为on-policy算法,所以不需要设计target网络,也不需要ReplayBuffer, 并且Actor和Critic的网络参数可以共享以便加快学习。PPO引入了重要度采样,使得每个episode的数据可以被多训练几次(实际的情况中,采样可能非常耗时)从而节省时间,clip保证的更新的幅度不会太大。 importtorch...
PPO算法也是Actor-Critic架构,但是与DDPG不同,PPO为on-policy算法,所以不需要设计target网络,也不需要ReplayBuffer, 并且Actor和Critic的网络参数可以共享以便加快学习。PPO引入了重要度采样,使得每个episode的数据可以被多训练几次(实际的情况中,采样可能非常耗时)从而节省时间,clip保证的更新的幅度不会太大。
先看下actor的输出概率有没有收敛(某些动作的概率比较大),原因应该就是reward太sparse首先你需要知道...