预计mlc-llm跑llama-2-7b-int4需要内存大于4G; MIUI系统内存占用较高,原始内存8G,空闲内存在4G左右;
[1]GitHub - mlc-ai/mlc-llm: Enable everyone to develop, optimize and deploy AI models natively on everyone's devices.:https://github.com/mlc-ai/mlc-llm [2]MLC LLM介绍:https://mlc.ai/mlc-llm/ [3]WebLLM:https://mlc.ai/web-llm/ [4]GitHub存储库:https://github.com/mlc-ai/mlc-l...
mlc-llm(可以从GitHub上获取) Android设备(可以是手机或平板电脑) 二、模型压缩 首先,我们需要使用mlc-llm工具对qwen-7b模型进行压缩。这可以通过以下步骤实现: 将qwen-7b模型转换为PyTorch格式(如果尚未转换)。 使用mlc-llm的压缩功能对模型进行压缩。您可以通过调整压缩参数来优化模型大小和性能之间的平衡。 压缩完成...
拉取mlc-llm官方仓库,编译安卓apk需要用到。 git clone https://github.com/mlc-ai/mlc-llm.git cd mlc-llm git submodule update --init --recursive 将之前编译的gemma-2b-it-q4f16_1-android.tar放到mlc-llm/dist/prebuilt/lib/gemma-2b-it/目录下。没有就创建该目录。 mkdir -p mlc-llm/dist/pre...
我这里编译了一个RWKV4 World 3B模型的权重int4量化版本的apk,地址为:https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/app-debug.apk 。感兴趣的小伙伴可以下载这个apk到android手机上来运行,需要注意的是由于要在线拉取HuggingFace的权重,所以手机上需要可以访问HuggingFace需要代...
目前我跑通了Metal和Android平台的RWKV5推理(包含1.5B和3B),并且也编译出了一个3B int8模式的apk提供给android用户使用,地址为:https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/rwkv5-3b-int8.apk 。大家可以下载这个apk来体验最新的RWKV-5-3B模型。
通过USB将你的手机连接到电脑。通常会自动安装必要的驱动程序。当你运行程序时,将出现设备选择对话框。选择你的手机,APK将自动安装并运行。 一个编译好的apk: https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/app-debug.apk ...
MLC LLM is a machine learning compiler and high-performance deployment engine for large language models. The mission of this project is to enable everyone to develop, optimize, and deploy AI models natively on everyone's platforms. AMD GPUNVIDIA GPUApple GPUIntel GPUAdreno GPU ...
MLC LLM is a machine learning compiler and high-performance deployment engine for large language models. The mission of this project is to enable everyone to develop, optimize, and deploy AI models natively on everyone's platforms. AMD GPUNVIDIA GPUApple GPUIntel GPU Linux / Win ✅ Vulkan, ...
cd mlc-llm\android\MLCChat python bundle_weight.py --apk-path app/release/app-release.apk 这里的release指的是在AS中需要设置应用前面编译构建正式应用。需要在操作6中完成。 mlc_llm convert_weight ./dist/models/MiniCPM-2B-dpo-bf16-llama-format/ --quantization q4f16_1 ...