Google研究院、Google地图和DeepMind各单位多年合作,通过重新查看Google地图路线规划所使用的经典算法反向强化学习(Inverse Reinforcement Learning,IRL),提出了一种新的IRL算法称为RHIP(Receding Horizon Inverse Planning),改善路线建议结果达16%到24%。Google地图的路线建议是用户常用的功能,可考量各种因素,规划从...
Google研究院、Google地图和DeepMind各单位多年合作,通过重新查看Google地图路线规划所使用的经典算法反向强化学习(Inverse Reinforcement Learning,IRL),提出了一种新的IRL算法称为RHIP(Receding Horizon Inverse Planning),改善路线建议结果达16%到24%。 Google地图的路线建议是用户常用的功能,可考量各种因素,规划从地点A到...
基于人类反馈的强化学习(RLHF)在前沿大模型中被广泛使用。RLHF为何能成为推进对齐的重要算法之一?当前它都存在哪些根本问题与挑战?在2024年,它与更广泛的人类社会、更加智能的AI、超级对齐又存在哪些联系与最新的探讨? 大模型安全与对齐读书会的第二期,我们邀请到苏黎世联邦理工学院(ETH Zurich)计算机系博士生陈欣和...