这也说明了训练神经网络是可能的,因为损失(作为模型参数的函数)通常具有许多非常相似的局部最小值。 \quad 具体来说,在我们的实验中,我们发现了以下现象: 我们观察到,当对 x + S 内随机选择的起始点执行投影的 l_\infty 梯度下降时,攻击算法所实现的损失会以相当一致的方式增加,并迅速达到平稳状态。下图是从MNIST和CIFAR10
考虑这样一种情况:我们得到了一种可微优化方法,可以优化特定的参数,但这些参数有一个”可行域“的约束条件,更新前后的参数都不能越过这个可行域。怎么办呢? 普通的梯度下降,每次计算损失函数后,需要反向传播计算梯度并更新参数。而投影梯度下降的关键在于需要将更新后的参数投影回可行域中,以满足约束条件。 那么投影到...