RKLLM Runtime为Rockchip NPU平台提供C/C++编程接口,帮助用户部署RKLLM模型,加速LLM应用的实现。 RKNPU内核驱动负责与NPU硬件交互,已经开源,可以在Rockchip内核代码中找到。 支持平台 RK3588系列 目前支持模型 TinyLLAMA 1.1B Qwen 1.8B Qwen2 0.5B Phi-2 2.7B Phi-3 3.8B ChatGLM3 6B Gemma 2B InternLM2 ...
358 0 02:19 App ChatGLM2-6B运行在HZHY-AI700边缘大模型一体机 319 0 05:42 App 【RK3588】第四章 外设测试及介绍:5. 串口测试 197 0 02:59 App 【RK3588】第三章 HZHY-AI300G_外设测试及介绍:8. 看门狗测试 4620 0 13:41 App 【RK3588】第一章 RKNPU2开发和使用:3. RKNN模型转换和推理...
由于所提供的 RKLLM 所需要的 NPU 内核版本较高,用户在板端使用 RKLLM Runtime 进行模型 推理前,首先需要确认板端的 NPU 内核是否为 v0.9.6 版本,具体的查询命令如下: # 板端执行以下命令,查询 NPU 内核版本cat/sys/kernel/debug/rknpu/version# 确认命令输出是否为:# RKNPU driver: v0.9.6 若所查询的...
ChatGLM3 – 3.67 tokens/s When we testedLlama 2 7B on the GPU of the Mixtile Blade 3 SBC, we achieved 2.8 token/s (decode) and 4.8 tokens/s (prefill). So it’s unclear whether the NPU does provide a noticeable benefit in terms of performance, but it may cons...