Explore the morphology and dynamics of deep learning optimization processes and gradient descent with the A.I Loss Landscape project.
摘要:本文探讨了在训练物理信息神经网络(PINNs)时遇到的挑战,强调了损失景观在训练过程中的作用。我们检查了最小化PINN损失函数的困难,特别是由残差项中的微分算子引起的病态条件。我们比较了基于梯度的优化器Adam、L-BFGS及其组合Adam+L-BFGS的优劣,展示了Adam+L-BFGS的优越性,并介绍了一种新颖的二阶优化器NysNewt...
图6:Wide-ResNet-56 有残差连接 (上) 和无残差连接 (下) 的 loss landscape,k=2 意思是每层滤波器数量乘以2 网络初始化的影响 在图3中看到的一个有趣的性质是,网络的 loss landscape 似乎都可以分成两种区域:一种是损失函数值相对较低,loss landscape 的凸性很好;一种是损失函数值相对较高,loss landscape...
宽模型 vs 窄模型:为了观测每层layer不同filter数量的影响,本文比较了ResNet-56和WideResNet的差异。Fig.6可见,更宽的模型的loss landscape会出现更少的chaotic行为(极度扭曲或者sharp)。增加网络的宽度会得到更加flat的极小点,和更大的存在convexity的区域,更好的泛化性(更小的test error)。同时观测到,sharpness和...
现在的任务是, 给出了第一幅图, 这是一只鸟,我们希望loss landscape 表现的同这只鸟一样. 换言之, 这幅图的一个像素点代表了一个相同规模的神经网络的在一网络参数下的损失(或者正确率). 黑色的部分表示这部分的网络我们希望他们能正确识别样本, 白色像素点希望他们错误识别样本. 第三幅图就是通过训练后的...
论文名称:Bootstrap Generalization Ability from Loss Landscape Perspective 故事会环节 在做深度学习的时候,会发现一个事儿,就是如果训练数据和测试数据是一致的,那么效果一般都不错,但是如果不一致的时候(这个确实,在实际工业应用中,很少能有一致的情况发生,谁知道用户是用来测啥的)性能就会掉很多,这种情况就被叫做...
假设测试集曲线是训练曲线平移一下,那么显然flat情况下泛化性更好,而sharp的landscape经过平移则会直接...
Visualizing the Loss Landscape of Neural Nets. NIPS, 2018. An interactive 3D visualizer for loss surfaces has been provided by telesens. Given a network architecture and its pre-trained parameters, this tool calculates and visualizes the loss surface along random direction(s) near the optimal ...
Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer and Tom Goldstein.Visualizing the Loss Landscape of Neural Nets. NIPS, 2018. Aninteractive 3D visualizerfor loss surfaces has been provided bytelesens. Given a network architecture and its pre-trained parameters, this tool calculates and visualizes...
最近看的这篇是 Loss Visualization 的工作,对不同模型的比较,不同参数选择等问题比较有帮助。 Visualizing the Loss Landscape of Neural Nets Visualizing the Loss Landscape of Neural Nets 这篇文章主要提出了一种对 loss function 的 2D visualization 技巧:针对想要比较的参数 θ∗(作为高维参数空间的一个点...