代码解析 训练过程: 主入口在main.py里面,这里面涉及到了强化学习的范畴,ppo算法训练。 首先,需要使用actor model生成训练样本,其次,使用训练样本生成actor loss和critic loss,然后梯度回传。 代码如下: 生成训练样本 generate_experience中会返回actor model、reference model、critic model、reward model等输出的结果,供...