这很奇怪。我不明白是否有某种底层机制可以自动将其输出的requires_grad设置为False。 请注意,我还没有在 GPT 或在线论坛中找到答案,并且诸如是否使用 no_grad() 上下文、计算图中断、设备传输或数据使用等可能性都是不存在的,如代码所示,这只是一个 sigmoid 运算。 print("mask:", mask.requires_grad) print(...
def _log_sigmoid_grad( a: TensorProxy, ) -> TensorProxy: from thunder.torch import abs, exp, log_sigmoid_backward, logsigmoid from thunder.torch import where, exp, logsigmoidfwd = logsigmoid(a)g = get_grad(fwd) if a.device.type == "cpu": ...
PR Category CINN PR Types Improvements Description pcard-76996 优化hardsigmoid grad的反向拆分,当前hardsigmoid仅拆分了前向,反向未拆分,通规前向拆分自动推导的反向,反向会依赖前向的输入, 但是phi的 hardsigmoid grad 是依赖out,在一些任务上,依赖out 会跟后
tensorflow SigmoidGrad legalization/cc @ukoxyz