UCB固然很美好,但是所有的拓展都要求计算上确界,理论分析是个很麻烦的事情,有没有什么方法可以模拟出一个哪怕不是很精确的上确界? 参考文献 首先推荐这两篇论文: Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems Introduction to Multi-Armed Bandits 与其叫论文,不如叫教科书,你看过哪...