- 矩阵乘法:用于计算注意力分数和值的加权和。- 向量运算:Query, Key, Value 向量的操作。- 点积:用于计算注意力分数。2. 概率论与统计:- Softmax 函数:用于将注意力分数转换为概率分布。- 期望值:加权平均本质上是一种期望计算。3. 优化理论:- 梯度下降:用于模型训练。- Adam优化器:常用的优化算法。4. ...