Cross entropy loss is defined as the “expectation” of the probability distribution of a random variable , and that’s why we use mean instead of sum. 参见这里。 熵、相对熵以及交叉熵总结 交叉熵 H(p, q) 也记作 CE(p, q)、 H(P, Q) ,其另一种表达公式(公式表达形式虽然不一样,但是...