清华团队提出RL专用神经网络优化器RAD | 神经网络作为RL价值函数和策略函数的核心载体,其训练过程通常依赖于神经网络优化器以实现参数更新。然而,目前主流的神经网络优化器(如SGD-M、Adam和AdamW等)虽然在缓解局部最优和加速收敛方面有所帮助,但其算法设计和参数选择均依赖于人工经验和实用技巧,缺乏对优化动态特性的解释与