引言很早以前就接触了EM算法,但是发觉自己好像有理解不正确的地方,于是自己推导了一遍。才疏学浅,有错误之处还请各位大佬指正。 EM算法的通俗解释Expectation Maximization 的算法的本质… 民科局长 LogN-Scaling 在Alibi下的校正 1. 背景1.1 基于熵不变的Attention调整苏剑林老师在 从熵不变性看Attention的Scale操作 -...