而且detach返回的是一个全新的class。由于是全新的class,那么从c++层面看,也是不同的Tensor,从python层...
这里我在计算L的时候同时用了K.detach()和K,K.detach带来的梯度虽然无法回传,但是K的梯度是可以回传的,所以X和Y依然存在梯度。 所以如果我们想让从K中出去的所有计算都无法得到梯度,那么应该先使用K = K.detach()。 所以这么来看,detach这个方法其实可以理解为在本次计算中让某个变量变为常数。 总结 目前对于...