人工智能导论,模型与算法习题参考答案第一章绪论1,B,D2,B,D3,C,B4,略,略5,略,参考答案,强化学习有环境智能体状态奖励决策等诸多要素,涉及序列决策过程,智能体之前作出的决策会影响智能体当前的状态,从而影响未
略 10. 参考答案:强化学习有环境、智能体、状态、奖励、决策等诸多要素,涉及序列决策过程,智能体之前作出的决策会影响智能体当前的状态,从而影响“未来”的决策过程。而监督学习中,对每一个样本输入做出的决策不会影响到“未来”的决策。监督学习的每次决策后得到的反馈是“最终反馈”,它包含了最佳决策的信息。而...