0. 大纲LLaMA、ChatGLM、Falcon等大语言模型的比较tokenizer、位置编码、Layer Normalization、激活函数等大语言模型的分布式训练技术数据并行、张量模型并行、流水线并行、3D并行零冗余优化器ZeRO、CPU卸载技术Ze…
浅析大语言模型从预训练到微调的技术原理