以1-\epsilon的概率选择利用 (Exploitation),从N道菜{\tilde{p}_{1}, \tilde{p}_{2}, ..., \tilde{p}_{N}}中选择好吃的概率最高的菜推荐给用户 那么\epsilon - greedy的缺点是什么呢: 在试吃次数相同的情况下,好吃和难吃的菜得到试吃的概率是一样的:有一道菜持续能得到好吃的反馈,而另一道菜持续...
贪婪算法(Epsilon Greedy) 我们会从贪婪算法讲起。在每个算法的讨论中,我会包括以下内容: 理论和直觉 算法伪代码 Python代码 贪婪算法都有一个简单的逻辑:选择预期回报最高的版本。为了简单起见,我们考虑一个电子商务网站的例子。这个网站有5种不同的设计,但是只销售一个产品:一个69.99元的可随身携带的乐器。如果我...
对于少量武器,Epsilon贪婪算法比UCB性能更好 、、、 我正在使用各种算法实现强盗问题。我面临的问题是,epsilon-greedy在5 am和2000年的horizon中的表现优于UCB,epsilon值为0.95。我意识到,当地平线与许多武器相媲美时,epsilon-greedy确实表现得更好。但由于我的手臂明显低于地平线,UCB应该表现得更好。你知...