ICM 是通过引入“好奇心”作为一种内在动机,帮助智能体在缺乏外部奖励的情况下探索环境并获取经验,从而提高强化学习的效率。 ICM 模块的核心思想是利用智能体对环境状态变化的预测误差来产生内在奖励,以鼓励智能体进行探索。这种内在奖励机制与任务的外部奖励无关,因此在奖励稀疏或完全没有外部奖励的情况下,ICM 也能够引导智能体继续学习