可以通过引入多臂老虎机(Multi-Armed Bandit, MAB)算法来提高5G连接态切换的效率。多臂老虎机(Multi-Armed Bandit, MAB)算法属于强化学习中的探索与利用(Exploration and Exploitation)问题。假设现在有 K 台老虎机或者一个 K 根拉杆的老虎机,每台老虎机都对应着一个奖励概率分布,我们希望在未知奖励概率分布的情况...