小批量梯度下降是机器学习和深度学习最为常用的优化方法。是对BGD和SGD的一个折中。其思想是每次迭代使用batch_size个样本来对参数进行更新。优点是通过矩阵运算,每次在一个batch上优化参数并不会比单个数据慢太多。其次是每使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降...