書籍「つくりながら学ぶ!深層強化学習」のサポートリポジトリです. Contribute to YutaroOgawa/Deep-Reinforcement-Learning-Book development by creating an account on GitHub.
自然方策勾配法は,従来の方策勾配法に見られるような,方策パラメータ空間の構造に依存して生じる学習の停滞を回避し,より効率的に方策を改善する手法として近年注目されている.しかしながら,従来研究において提案されている最小三乗法に基づく自然方策勾配の推定法では,現在の方策に基づいて得ら...
方策勾配法の時と同じですが出力が線形なのでsoftmax関数を経由して確率的に選ぶようにしています。 def LinearSoftmaxPolicy(model, state, nb_actions): action_eval, _ = model(state.reshape((1,-1))) probs = tf.nn.softmax(action_eval) return np.random.choice(nb_actions, 1, p=probs...
書籍「つくりながら学ぶ!深層強化学習」のサポートリポジトリです. Contribute to kokuno1122/Deep-Reinforcement-Learning-Book development by creating an account on GitHub.