我们认为结构重参数相对于dicractnet和Trivial重参数的优势在于前者依赖于通过具有非线性行为(BN)的具体结构的实际数据流,而后者只是使用了另一种卷积核的数学表达式。前者“重新参数化”意味着“使用一个结构的参数来参数化另一个结构”,而后者意味着“先用另一组参数计算参数,然后再用它们进行其他计算”。对于训练时...