百度试题 结果1 题目at a loss困惑,为难,不知所措 相关知识点: 试题来源: 解析 We don’t have an endless supply of money,you know.反馈 收藏
我对于 GRPO 最直接的理解,是改变了 Adv 的计算方法,从 PPO 的 GAE 估算(需要整个trajectory的每一个后续step),变成了自己搓的一个新的 func -- 对于同一个问题一口气采样N个sample,在这N个sample之中计算相对(平均的)优势,同时将 kl 惩罚项从 reward 中剥除,放到了 loss 中计算;我认为这背后折射出来了...