DDPG算法中有2个网络:「Actor 网络」与「Critic 网络」: ① 对于状态 s,基于Actor网络获取动作action a(这里的 a 是一个向量) ②将 a 输入Critic 网络,得到 Q 值(输出),目标函数就是极大化 Q 值 具体的「Actor 网络」和「Critic 网络」更新有一差异,DDPG论文中算法流程如下图所示: Deep Deterministic Poli...
最近论文里做的工作刚好有尝试改actor和critic的网络结构,尝试加了cnn和注意力机制,不过貌似有一点点提...
先说一下第二个问题,要看输入特征是什么结构,无缘无故改卷积可能更不好,虽然大家都是机器学习玄学...
具体的「Actor 网络」和「Critic 网络」更新有一差异,DDPG论文中算法流程如下图所示: 如上图,Actor 网络和 Critic 网络是分开训练的,但两者的输入输出存在联系,Actor 网络输出的 action 是 Critic 网络的输入,同时 Critic 网络的输出会被用到 Actor 网络进行反向传播。 两个网络的参考示意图如下:Critic 跟之前提到...
在RL中网络是最次要的,而且落地的时候复杂的网络算子可能是大坑,不要把cv和nlp水论文的思路做rl,rl...