综述的组织结构 本综述分为三个主要部分,每个部分都涵盖了优化小型语言模型的关键方面。第2节关注模型架构,包括轻量化设计、高效的自注意力近似以及神经架构搜索以高效构建更小的模型。第3节涵盖高效的预训练和微调技术,以在资源受限的情况下提升小型语言模型的性能。第4节探讨了模型压缩技术,如剪枝、量化和知识蒸馏...
Babyllama是首个使用Llama模型作为教师模型来开发的具有58M参数的小型语言模型。该工作的一个重要发现是,从一个强大的教师模型中蒸馏出的学生模型要优于在相同数据集上得到的预训练模型。近期研究表明,通过策略性的合并多种语言模型的输出概率分布,能够将多种语言模型融合为教师模型,并将教师模型蒸馏为小语言模型。 语...
因此,小型语言模型作为LLM的替代方案,正受到越来越多的关注,如图2所示,SLM在Hugging Face社区中的下载频次超过了较大的模型,图3则展示了SLM发布的日益受欢迎趋势。 通常,展现出突现能力的语言模型被归类为LLM。然而,SLM的分类仍不明确...
北邮&剑桥最新SLM(小语言模型)研究综述 今天介绍的这篇文章是关于小型语言模型(Small Language Models, SLMs)的研究综述,作者团队来自北京邮电大学、鹏城实验室、Helixon Research、剑桥大学等机构。 语言模型的发展目前呈现出分歧,一方面是追求人工通用智能的LLMs,在训练和推理双scaling law的指引下不断加大计算量;另...
对小型语言模型进行综述的难点在于,“小型”和“大型”的定义是随时间和上下文变化的。例如,GPT-2 在2019年作为一个拥有15亿参数的“大型语言模型”,如今已经比本文综述中许多所谓的“小型”语言模型要小。然而,虽然模型规模在变化,小型语言模型的训练目标相对稳定。
大型语言模型(LLMs)在推进人工通用智能(AGI)方面取得了显著进展,促进了像GPT-4和LLaMA-405B这样越来越大的模型的发展。然而,模型规模的扩大导致计算成本和能源消耗呈指数级增长,使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时,小型模型(SMs)在实际应用中经常被使用,尽管它们的重要性目前被低估...
大型语言模型(LLMs)在推进人工通用智能(AGI)方面取得了显著进展,促进了像GPT-4和LLaMA-405B这样越来越大的模型的发展。然而,模型规模的扩大导致计算成本和能源消耗呈指数级增长,使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时,小型模型(SMs)在实际应用中经常被使用,尽管它们的重要性目前被低估...
模型规模的扩大导致计算成本和能源消耗呈指数级增长(Wan et al., 2023)。此外,训练和部署LLMs对于资源有限的学术研究人员和企业来说通常是不可行的。因此,人们转向了更小的语言模型(SLMs),如Phi-3.8B(Abdin et al., 2024)和Gemma-2B(Team et al., 2024),它们可以在显著减少参数的情况下实现可比的性能。