本研究では,破綻の原因の一側面が数値精度に由来することに着目し,特異モデルであっても破綻をきたさない汎用的な枠組みを考案した.この結果,適応的自然勾配法の学習速度をあまり要化させることなく,また,計算量のオーダーを同じに保ったまま,特異モデルでの学習を可能とした.また
勾配の推定が困難となる.本報告で提案する変分ベイズ法に基づく自然方策勾配の推定手法では,スパース事前分布を自然方策勾配及び状態価値関数の関数近似重みの事前分布として導入し,その分散パラメータもサンプルデータから同時に推定する.これにより,推定結果に影響を及ぼさない基底は自動的に淘汰...