摘 要:为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进 SARSA 学习的智能抗干扰决策 算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将 基于置信度上界的动作选择策略和优先遍历思想应用于 SARSA 学习,以平衡智能体对状态⁃动作空间的探索