蟹妖。Eligibility Trace通常被大家翻译为“资格迹”,咋一看还真的摸不着头脑,而且大家习惯于用文字解释,那就更为抽象了。所以我认为吃透它最好的方法是双管齐下:通过数学公式为主和文字描述为辅来理解。(本答案已默认各位具备强化学习中价值函数逼近与off-line λ-return算法的知识。)一、什么是资格迹?先来一遍文
我们知道lambda return下的梯度更新公式是:wt+1=wt+α[Gtλ−v(St)]∇v(st)...
蟹妖。Eligibility Trace通常被大家翻译为“资格迹”,咋一看还真的摸不着头脑,而且大家习惯于用文字解释...