Python1,246Apache-2.0183176(9 issues need help)41UpdatedJun 3, 2025 LMBenchPublic Python0200UpdatedJun 3, 2025 lmcache.github.ioPublic LMCache official blog HTML0MIT300UpdatedMay 27, 2025 demoPublic lmcache-vllmPublic The driver for LMCache core to run in vLLM
LMCache is anLLMserving engine extension toreduce TTFTandincrease throughput, especially under long-context scenarios. By storing the KV caches of reusable texts across various locations, including (GPU, CPU DRAM, Local Disk), LMCache reuses the KV caches ofanyreused text (not necessarily prefix...
【阅读原文】戳:Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架 近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会...
SamplingParamsfrom vllm.config import KVTransferConfig# 与 LMCache 相关的环境变量# 在 LMCache 中使用实验功能os.environ["LMCache_USE_EXPERIMENTAL"]="True"# LMCache 设置为每块使用256个 tokenos.environ["LMCache_CHUNK_SIZE"
LMCache lets LLMs prefill each text only once. By storing the KV caches of all reusable texts, LMCache can reuse the KV caches of any reused text (not necessarily prefix) in any serving engine instance. It thus reduces prefill delay, i.e., time to first token (TTFT), as well as ...
其中文档中提到了一个参数 _lm_cache_res_cleanup;通过调整该参数,来该表 ges resource 的回收机制;有可能避免这个情况。 方法好用不,要试试才知道,果断告知客户进行调整,然后观察几天后,发现 ges resource 的内存消耗得到了有效控制: 在未调整参数之前,重启实例1天,ges resource 就超过 300M了,然后逐渐攀升,直...
存储:Cache Table存储在FRONTNODE本地节点上,每个节点上有多个Cache Table存储分桶,桶内采取换入换出机制,每个FRONTNODE上最大能容纳的Cache Table数据量为 256MB * FRONTNODE所在物理机的总核数 ;从业务角度来说,Cache Table为临时存储,不能作为永久性存储,主要用来加速局部数据复用查询和分页查询。 查询:Cache ...
cache n. 高速缓冲存储器 一种特殊的存储器子系统,其中复制了频繁使用的数据以利于快速访问。存储器的高速缓冲存储器存储了频繁访问的 RAM 位置的内容及这些数据项的存储地址。当处理器引用存储器中的某地址时,高速缓冲存储器便检查是否存有该地址。如果存有该地址,则将数据返回处理器;如果没有保存...
LMCache / requirements-lint.txt requirements-lint.txt205 Bytes 一键复制编辑原始数据按行查看历史 Jiayi Yao提交于4个月前.[Enhancement] Improve disk store performance with asyncio (#306) 123456789101112131415 # formatting yapf==0.40.0 toml==0.10.2 ...
LMDeploy量化方案: KV Cache量化、模型权重量化、训练后量化(PTQ) (1)KV Cache 量化 在线KV Cache INT4/INT8 量化:量化的粒度为 per - head per - token。这意味着量化操作是针对每个头(head)和每个令牌(token)分别进行的。 与FP16 对比的优势:与 FP16 相比,采用 INT4/INT8 量化的 KV Block 数量有显...