SpQR 技术原理 SpQR 量化算法 稀疏量化表示的实现和利用 SpQR 实验细节 SpQR 应用 总结 参考文档 近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模型压缩主要分为如下几类: 剪枝...