llama2 模型参数 在上图中,可以看到第32个 Transformer Decoder block每一层的参数量,模型中所有Transformer Decoder block的维度都一致。需要指出LLaMA2-7B在FFN中三个全连接层的hidden-dim是11008,通过计算得到。需要注意RMSNorm层也是有可训练参数的,每一层的参数量为4096,对应RMSNorm中的缩放因子。 FFN中hidden_...