特異モデルの学習では特異点においてFisher情報行列が縮退してしまうことが知られている.このため,幅広い適用範囲を持つ適応的自然勾配法においても,推定逆行列が発散するという形で破綻をきたすことが問題となっていた.本研究では,破綻の原因の一側面が数値精度に由来することに着目
自然方策勾配法は,従来の方策勾配法に見られるような,方策パラメータ空間の構造に依存して生じる学習の停滞を回避し,より効率的に方策を改善する手法として近年注目されている.しかしながら,従来研究において提案されている最小三乗法に基づく自然方策勾配の推定法では,現在の方策に基づいて得ら...