无gradient clip:模型在2000次迭代出发生了梯度爆炸。 有gradient clip:可以发现clip_gradient在前期有效了控制了梯度爆炸的影响,使得最终的loss能下降到满意的结果 Tensorflow and Pytorch GradientClip