在单智能体强化学习中,对组对称性实施等效性已被证明可以提高数据效率,例如使用 MDP 全纯网络 (van der Pol et al., 2020)、轨迹增强 (Lin et al., 2020; Mavalankar, 2020) ,或对称运动策略(Abdolhosseini 等人,2019 年)。 等变方法通过在转换下等效的状态-动作对之间共享权重,使单个代理能够在其环境中...
【强化学习应用43】Multi-Agent MDP Homomorphic Networks ICLR 2022 poster 一句话总结:我们介绍了具有分布式执行的全局等变多代理策略网络。 原文传送 原文特色 本文介绍了多智能体 MDP 同态网络,这是一类允许仅使用本地信息进行分布式执行的网络,但能够在协作多智能体系统的联合状态-动作空间中共享全局对称性之间的...
van der Pol, E.; van Hoof, H.; Oliehoek, F. A.; and Welling, M. 2021. Multi-Agent MDP Homomorphic Networks. arXiv preprint arXiv:2110.04495. van der Pol, E.; Worrall, D.; van Hoof, H.; Oliehoek, F.; and Welling, M. 2020. MDP homomorphic networks: Group symmetries in reinf...
【强化学习应用43】Multi-Agent MDP Homomorphic Networks ICLR 2022 poster 一句话总结:我们介绍了具有分布式执行的全局等变多代理策略网络。 原文传送 原文特色 本文介绍了多智能体 MDP 同态网络,这是一类允许仅使用本地信息进行分布式执行的网络,但能够在协作多智能体系统的联合状态-动作空间中共享全局对称性之间的经...
HE Homomorphic encryption IES Integrated energy system MADDPG Multi-agent deep deterministic policy gradient MADRL Multi-agent deep reinforcement learning MDP Markov decision process MG Microgrid MILP Mixed-integer linear programming RL Reinforcement learning Indices and Sets 𝑛,𝒩n,N Index/set of ...
HE Homomorphic encryption IES Integrated energy system MADDPG Multi-agent deep deterministic policy gradient MADRL Multi-agent deep reinforcement learning MDP Markov decision process MG Microgrid MILP Mixed-integer linear programming RL Reinforcement learning Indices and Sets 𝑛,𝒩n,N Index/set of ...