引入了多头潜在注意力、混合专家模型(Moe)、无损失负载均衡策略、多 Token 预测、SFT 监督微调和强化学习等技术创新,还首次引用 F8 混合精度训练,能减少内存占用、提高计算性能、降低训练成本并加速训练过程。性能优越,可匹肩 GPT-4o、Claude-3.5-sonic 等顶尖模型,在基准测试上评分较高,也可本地部署,但对硬件...