单步决策问题可以当成一个最优化问题,选择动作以最大化奖励函数。一般奖励函数的形式关于动作的关系都比...
强化学习与监督学习的区别,在于监督学习一般有标签信息,而且是单步决策问题;强化学习没有标签信息,而且一般是多步决策。 A、正确 B、错误 参考答案:对 点击查看答案