ステップ数の異なる経験を組み合わせる手法を TD(λ)法 と呼ぶ。 経験を価値、戦略どちらの更新に利用するか 経験は、価値/戦略(Valueベース/Policyベース)どちらの更新にも利用可能である。 TD法に基づき行動の価値の更新を行う手法を Q-learning と呼ぶ。 ("Q"は、行動価値を表す記号として...