专为智能手机设计的高速LLM推理框架PowerInfer-2,实现三个目标:1)低推理延迟:最小化预填充阶段(TTFT)和解码阶段(TBT)的推理延迟;2)低内存占用:减少推理过程中的内存使用量,即使模型大小超出设备内存限制,也能实现LLM的低延迟推理; 3)灵活性:确保设计可以无缝适应具有不同计算、内存和存储容量的智能手机。 提出一...
而 PowerInfer 的代码是 c++ 基于 llama.cpp 重写的,这俩代码实现上还没有啥关联,而 PowerInfer 的核心目标是解决 GPU 内存放不下参数要实时卸载到 CPU 再动态加载,所以复现结果上对性能要求也就不能太高。 总体感觉是,相比量化稀疏化的实用性略差也就是说还没达到大家的期望所以换个角度说可以研究的东西还很...
PowerInfer-2是一个支持在智能手机上进行高速LLM推理的框架,特别适用于超出设备内存容量的模型。PowerInfer-·12的关键洞察是利用智能手机的异构资源,将矩阵计算转化为更易管理的神经元簇计算。在两款智能手机上的评估表明,PowerInfer-2比现有的最先进系统快29.2倍,并且是首个能够在智能手机上高效运行像TurboSparse-Mix...
PowerInfer-2从架构原理上,和前面的工作LLM in a flash(苹果作品)很像,或者说从基础逻辑上一摸一样。架构图如下: 主要的技术点有 或者是模型要求: 模型的稀疏化。如果MOE模型是大颗粒的稀疏,通过路由的方式选择哪个FFN分支被加载。那么PowerInfer2(背后的那篇Turbo Sparse,就是FFN中参数级别的稀疏) 当然这个稀疏...
与热门开源推理框架llama.cpp相比,PowerInfer-2.0的推理加速比平均达到25倍,最高达29倍。 ,时长01:16 为了充分释放出PowerInfer-2.0框架的最大潜力,上海交大团队还提出了配套的大模型优化技术Turbo Sparse,相关论文近期也上传了arxiv,并且已经在业内引起关注。
与热门开源推理框架llama.cpp相比,PowerInfer-2.0的推理加速比平均达到25倍,最高达29倍。 为了充分释放出PowerInfer-2.0框架的最大潜力,上海交大团队还提出了配套的大模型优化技术Turbo Sparse,相关论文近期也上传了arxiv,并且已经在业内引起关注。 另外值得一提的是,去年底上海交大团队提出了针对PC场景的快速推理框架...