多臂老虎机问题(Multi-Armed Bandit Problem)源自赌博机(老虎机)的概念,用于描述一个探索与开发(exploration-exploitation)的平衡问题。想象你站在一排老虎机前,每台老虎机有不同的概率分布,代表你每次拉杆可能赢得的奖金。你的目标是通过尽量少的尝试找出哪台老虎机能让你赚最多的钱。 详细回答 多臂老虎机问题在...
想要知道啥是Multi-armed Bandit,首先要解释Single-armed Bandit,这里的Bandit,并不是传统意义上的强盗,而是指吃角子老虎机(Slot Machine)。按照英文直接翻译,这玩意儿叫“槽机”(这个翻译也是槽点满满),但是英语中称之为单臂强盗(Single-armed Bandit)是因为即使只有一个手臂(摇把),它也可以抢走你所有的钱。中文“...
我最近也在用Multi-armed bandit模型来研究一些经济管理问题.该模型通常可以翻译为"多臂赌博机"模型.该模型用来解决这样的一类问题:即决策者面临多个战略选择,而每个战略选择会产生的后果只有在被选中之后才能知道.
它的名字来源于老虎机(bandit),因为其问题可以类比为面临多个老虎机(多个臂)的情况,每个臂代表一个行动或选择,而算法的目标是在几次尝试中找到奖励最高的臂。 多臂老虎机算法有两种主要变体:epsilon-greedy算法和Upper Confidence Bound (UCB)算法。其中epsilon-greedy算法是最简单的一种,它以概率epsilon选择一个...
an instance of the multiarmed bandit problem问题补充:匿名 2013-05-23 12:21:38 null 匿名 2013-05-23 12:23:18 正在翻译,请等待... 匿名 2013-05-23 12:24:58 正在翻译,请等待... 匿名 2013-05-23 12:26:38 匿名 2013-05-23 12:28:18 null...