在这个代码中,我们定义了一个函数scaled_dot_product_attention,它接收查询(Q)、键(K)和值(V)矩阵,并可选地接收一个遮罩(mask),然后返回注意力机制的输出和权重。使用遮罩可以防止模型在训练时查看到不应该查看的信息,例如,在处理序列数据时防止模型向前看。 在实际应用中,查询、键和值通常是通过将输入数据通过...