答:单方程估计的主要方法有:狭义的工具变量法(IV),间接最小二乘法(ILS),两阶段最小二乘法(2SLS)。 狭义的工具变量法(IV)和间接最小二乘法(ILS)只适用于恰好识别的结构方程的估计。两阶段最小二乘法(2SLs)既适用于恰好识别的结构方程,又适用于过度识别的结构方程。
相比之下,PPO 要额外引入重要性采样(importance sampling),广义优势估计(generalized advantage estimation,GAE),价值模型学习等额外模块。 ReMax 的超参数很少。相比之下,PPO 有额外的超参数,例如重要性采样剪切阈值(importance sampling clipping ratio)、GAE 系数、价值模型学习率,离策略训练轮次(off-policy training ep...