温度系数\tau虽然只是一个超参数,但它的设置是非常讲究的,直接影响了模型的效果。 上式Info NCE loss中的q\cdot k相当于是logits,温度系数可以用来控制logits的分布形状。对于既定的logits分布的形状,当\tau值变大,则1/\tau就变小,q\cdot k/\tau则会使得原来logits分布里的数值都变小,且经过指数运算之后,就...