首先,生成模型部分:在AC方法中,负责生成的叫做Actor,用于生成下一步需要进行的操作Action,而在GAN中...
Actor-Critic可以写成是求解一个bilevel optimization problem,GAN可以写成是一个minimax optimization proble...
演员-批评员方法(Actor-Critic, AC)是强化学习中一类长期存在的技术。而大多数强化学习算法要么专注于学习值函数,就像值迭代和时序差分学习一样,要么直接学习策略,就像策略梯度方法一样,AC方法可以同时学习——演员是策略,批评员是值函数。在某些AC方法中,批评员为策略梯度方法提供的方差基线低于从重复值估计的方差...
http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/AC.pdf