一种简单粗暴的解决方案就是所谓的 greedy算法,这个我们在非贝叶斯情形下(系列文章[2])里已经有过详细讨论,这里就不再多说了,只是再提一下 greedy只是一种随机算法(randomized algorithm),在纯贪心算法的基础上加入一定概率的uniform exploration(也就是randomize纯贪心算法和uniform exploration)。当然,在实际中这种算法...