😊 DPO的解决方案: (a) 避免只使用离线已收集好的数据集,在在线环境下进行fine-tune。 (b) 使用一些数据训练一个reward function,以提供细粒度反馈。🤔 不知道大家有没有发现,DPO到这个时候,已经具备PPO的基本特性了。那么,训练DPO可能还不如直接去训练PPO。这可能是头部玩家选择PPO而不是DPO的原因之一。当然...