检查方法:查看程序运行日志,查找每次模型迭代时打印的损失值。一般在出现Nan前,损失值在某次迭代后开始显着增长,最终损失将太大而无法用浮点变量表示,它将变为Nan。 解决方法:将初始学习率比之前减少一个数量级或者更多。如果模型有多个损失项,则应检查日志以了解哪项导致梯度爆炸,然后减少该特定项的损失权重(loss_...
检查方法:查看程序运行日志,查找每次模型迭代时打印的损失值。一般在出现Nan前,损失值在某次迭代后开始显着增长,最终损失将太大而无法用浮点变量表示,它将变为Nan。 解决方法:将初始学习率比之前减少一个数量级或者更多。如果模型有多个损失项,则应检查日志以了解哪项导致梯度爆炸,然后减少该特定项的损失权重(loss_...