在单智能体强化学习所解决的马尔可夫决策过程(Markov decision problem,MDP)中,通常假定的是环境是完全可观测的,智能体直接从环境那里获得全局的状态信息;而多智能体强化学习任务通常被建模为部分可观测马尔可夫决策过程(partially observable Markov decision problem,POMDP),智能体不再拥有全局视野而是根据一个观测函数从全...
1、本发明为了解决传统的基于群智能优化算法的解决方案存在无法保存优化经验、调度时间区间短、难以应对问题空间的高复杂性等问题,提供了一种基于元多智能体深度强化学习的新型电力系统多目标鲁棒优化方法。 2、本发明是通过如下技术方案来实现的:本发明研究了使用强化学习相关算法解决电力系统的多目标含不确定性优化调度...
在单智能体强化学习所解决的马尔可夫决策过程(Markov decision problem,MDP)中,通常假定的是环境是完全可观测的,智能体直接从环境那里获得全局的状态信息;而多智能体强化学习任务通常被建模为部分可观测马尔可夫决策过程(partially observable Markov decision problem,POMDP),智能体不再拥有全局视野而是根据一个观测函数从全...