略 10. 参考答案:强化学习有环境、智能体、状态、奖励、决策等诸多要素,涉及序列决策过程,智能体之前作出的决策会影响智能体当前的状态,从而影响“未来”的决策过程。而监督学习中,对每一个样本输入做出的决策不会影响到“未来”的决策。监督学习的每次决策后得到的反馈是“最终反馈”,它包含了最佳决策的信息。而...
同求答案
同求答案,不知道博主是否找到了呢?
求指点,最近复习麻了
同学,请自己独立完成作业