使用梯度执行反向传播,更新策略网络,就能以强化学习的方式求解单步决策问题。不过,强化学习在单步决策问题...
强化学习与监督学习的区别,在于监督学习一般有标签信息,而且是单步决策问题;强化学习没有标签信息,而且一般是多步决策。 A、正确 B、错误 参考答案:对 点击查看答案