model-based算法就是专门解决sample-efficiency问题,通过先对环境建模,然后利用环境模型与agent进行交互,采集轨迹数据优化策略,整个建模流程中,planning步骤至关重要,正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率,但是环境模型在学习过程中难免存在偏差;难以保证收敛 →建模过程的复杂性 需要同...
Model-free强化学习则是直接学习策略(policy),相关的算法有Q-learning、policy gradient等。 一个简单的判断标准是:如果训练之后,代理必须通过预测下一个状态和报酬来采取行动,那么就是model-based强化学习算法,否则就是model-free强化学习算法.