PowerInfer是一款在单个消费级 GPU 个人计算机 (PC) 上运行的高速大语言模型 (LLM) 推理引擎。PowerInfer 设计的关键是利用 LLM 推理固有的高局部性,其特点是神经元激活呈幂律分布。这种分布表明,一小部分神经元(称为热神经元)在不同输入之间持续激活,而大多数冷神经元则根据特定输入而变化。据此 PowerInfer 设计...
因此,PowerInfer-2 选择根据神经元粒度而不是矩阵结构来存储神经元权重,将 Gate、Up 和 Down 矩阵中第 i 个神经元的权重连接成一个条目。 PowerInfer-2 进一步为不同模型引入了不同的 I/O 加载策略,考虑到量化方法和 UFS I/O 的固有特性。对于未量化的模型,由于每个神经元占用的存储空间较大,PowerInfer-2 ...
PowerInfer 是一个在个人电脑上利用消费级 GPU 进行高速大型语言模型推理的引擎。它利用 LLM 推理中的高局部性特点,通过预加载热激活的神经元到 GPU 上,从而显著降低了 GPU 内存需求和 CPU-GPU 数据传输。PowerInfer 还集成了自适应预测器和神经元感知的稀疏运算符,优化神经元激活和计算稀疏性的效率。它可以在单个...
上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快?在单个 NVIDIA RTX 4090 GPU 上运行 LLM ,PowerInfer 的平均 token 生成速率为 13.20 tokens/s,峰值为 29.08 tokens/s,仅比...
上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。相比于llama.cpp,Power...
PowerInfer 是基于 llama.cpp 这个轻量级框架做的,正好前面阅读 llama.cpp 的时候一直想深入研究的。
首先参考[1]对LLM的推理latency指标进行分析,得到以下的三个结论:在LLM的prompting和token generation两...
在PowerInfer-2系统中,执行计划的生成是一个关键步骤,它涉及到对硬件、模型和用户需求的深入分析,以制定出最优的运行配置。执行计划的生成过程包括以下几个关键环节: 1. 硬件和模型特性分析 执行计划首先需要对硬件的计算能力、I/O吞吐量和内存带宽进行评估。此外,还需要分析模型的大小、稀疏性和缓存特性。这一步骤...
1.安装和设置:在使用PowerInfer之前,需要先安装相应的机器学习框架和软件环境。安装完成后,需要将待分析的数据集导入到PowerInfer中,并进行必要的设置。 2.选择模型:在PowerInfer中,用户可以选择要分析的机器学习模型,包括分类、回归、聚类等类型。 3.生成报告:在完成模型选择和数据集导入后,PowerInfer会根据数据集的...