深度学习通过多层人工神经网络进行训练,类似于生物神经大脑的工作原理。AlphaGo使用两个神经网络“大脑”:监督学习的策略网络和价值网络。策略网络模仿人类棋手下棋,学习在围棋盘面上如何落子的直觉;价值网络则预测在不同棋盘状态下哪种走法更有可能获胜。在实战中,AlphaGo结合蒙特卡洛树搜索算法,通过模拟不同走法,选择最...