略 10. 参考答案:强化学习有环境、智能体、状态、奖励、决策等诸多要素,涉及序列决策过程,智能体之前作出的决策会影响智能体当前的状态,从而影响“未来”的决策过程。而监督学习中,对每一个样本输入做出的决策不会影响到“未来”的决策。监督学习的每次决策后得到的反馈是“最终反馈”,它包含了最佳决策的信息。而...