思路:不存储 QK^T 以及 softmax(QK^T) 这两个中间矩阵,因此把self-attention中的softmax(QK^T)V 进行 tiling分块计算,分块后中间计算结果很小 仅需保存在SRAM中,每一块的结果就不用再保存在HBM显存中了;Tiling之后无法对整行数据softmax ,使用以下动态更新softmax结果的方法: 通过保持两个额外的统计量m(x...
与Multi-head Attention相比,Query还是多个头,KV变成一个头,节省了很多计算量。模型的精度会稍微降低一点,但是推理速度会快很多。 Grouped-query Attention是multi-head和multi-query方案的折中。模型精度高于multi-query,速度优于multi-head。LLaMA2在34B和70B的模型上使用了Grouped-Query Attention。 LLaMA2的34B和70B...