60分钟左右,二面的面试官是个非常e的小姐姐,整体面试过程像聊天一样,比较轻松。整体上交流部分有接近一半时间在聊rl。 . 1. codealpaca和sharegpt的数据是什么样的?用什么指标评估? 2. 用过rlhf对齐吗? 3. ppo的全称?proximity 体现在哪里? 4. Q–learning也是学习策略,那它和policy based方法的区别在哪里?