判断题 RLHF的全称是Reinforcement Learning from Historical Feedback。答案: 错误 点击查看答案解析 在线练习 手机看题 你可能感兴趣的试题 判断题 在大模型预训练过程中,书籍、论文等数据的数据质量较高,领域相关性强,知识覆盖率大。 答案: 正确 点击查看答案解析 手机看题 判断题 BERT模型的输入可以是单一...
60分钟左右,二面的面试官是个非常e的小姐姐,整体面试过程像聊天一样,比较轻松。整体上交流部分有接近一半时间在聊rl。 . 1. codealpaca和sharegpt的数据是什么样的?用什么指标评估? 2. 用过rlhf对齐吗? 3. ppo的全称?proximity 体现在哪里? 4. Q–learning也是学习策略,那它和policy based方法的区别在哪里?