这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。 2.3 Wasserstein距离 Wasserstein距离度量两个概率分布之间的距离,定义如下: 是 和 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 ,可以从中采样 得到一个样本 和 ,并计算出这对样本的距离 ,所以可以计算该联合分布 下,...