在搜索过程中,每一次“采样”都有四个步骤:选择,扩展,模拟和反向传播: 其中选择主要受到 UCB 函数中 C 值的影响 扩展完全随机 模拟时由于黑白棋合法落子位置与当前局面的相关性非常大,没有找到随机以外的 合适方式进行落子(基于当前局面的贪心甚至不如随机算法) 反向传播时更新的收益分数也是可以人为影响算法效益的...
目前蒙特卡洛树搜索的实现大多是基于 UCT 的一些变形,本次实验的蒙特卡洛树搜索算法基于上述经典 UCB1 公式进行。 实验思路 考虑使用蒙特卡洛树搜索算法解决黑白棋问题。 具体地,考虑定义棋盘类用于描述某时刻的棋盘状态与完成棋盘操作,定义节点类用于建立蒙特卡洛树搜索的结构,定义 AI 类用于完成蒙特卡洛树搜索算法并给出...
蒙特卡洛树搜索算法在黑白棋AI中的应用主要集中在搜索过程的高效性和策略的优化上。其核心步骤包括:选择、扩展、模拟和反向传播,其中UCB score函数的调整和搜索次数的设定对AI性能至关重要。选择阶段,AI根据策略选择下一步落子位置;扩展阶段,基于当前状态生成可能的后续状态;模拟阶段,对选择的路径进行随...