PowerInfer是一款在单个消费级 GPU 个人计算机 (PC) 上运行的高速大语言模型 (LLM) 推理引擎。PowerInfer 设计的关键是利用 LLM 推理固有的高局部性,其特点是神经元激活呈幂律分布。这种分布表明,一小部分神经元(称为热神经元)在不同输入之间持续激活,而大多数冷神经元则根据特定输入而变化。据此 PowerInfer 设计...
例如,在 OPT-30B 的情况下,每生成一个 token,只有大约 20% 的神经元被激活,其中大部分在 GPU 上处理,这是 PowerInfer 神经元感知推理的好处。图 11 显示,在 PC-Low 上,PowerInfer 仍然比 llama.cpp 获得了相当大的性能增强,平均加速为 5.01 倍,峰值为 7.06 倍。然而,与 PC-High 相比,这些...
因此,PowerInfer-2 选择根据神经元粒度而不是矩阵结构来存储神经元权重,将 Gate、Up 和 Down 矩阵中第 i 个神经元的权重连接成一个条目。 PowerInfer-2 进一步为不同模型引入了不同的 I/O 加载策略,考虑到量化方法和 UFS I/O 的固有特性。对于未量化的模型,由于每个神经元占用的存储空间较大,PowerInfer-2 ...
上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。相比于llama.cpp,Power...
另外值得一提的是,去年底上海交大团队提出了针对PC场景的快速推理框架PowerInfer-1.0,在4090等消费级显卡的硬件上,实现了比llama.cpp高达11倍的推理加速,曾连续三天登顶GitHub趋势榜,5天获得了5k的GitHub star,目前已达到7.1k star。 相...
【PowerInfer-2:专为智能手机设计的高性能大型语言模型推理框架,支持高达47B参数的MoE模型,速度高达每秒11.68个token,比现有框架快22倍。即使在7B模型上,通过在手机上放置50%的FFN权重,也能保持领先速度】 ...
1.安装和设置:在使用PowerInfer之前,需要先安装相应的机器学习框架和软件环境。安装完成后,需要将待分析的数据集导入到PowerInfer中,并进行必要的设置。 2.选择模型:在PowerInfer中,用户可以选择要分析的机器学习模型,包括分类、回归、聚类等类型。 3.生成报告:在完成模型选择和数据集导入后,PowerInfer会根据数据集的...
PowerInfer: 用消费级 GPU 部署大语言模型卸载技术利用了 CPU 的额外计算和内存资源,为超出 GPU 内存容量的大规模语言模型 (LLM) 提供了一种更为可行的解决方案。以下内容分析了卸载系统的性能瓶颈,探讨其运行缓慢的原因。图 2 展示了两种主要的卸载方法:*以 GPU 为中心的卸载* ...
PowerInfer-2:上海交大的研究,让智能手机可以流畅运行Mixtral 8x7B 大小的模型。 PowerInfer-2解决了在智能手机上实现大型语言模型(LLMs)高速推理的挑战,特别是对于超出设备内存容量的模型。其关键创新在于...