CacheGen:KV Cache Compression and Streaming for Fast Large Language Model Serving 对CacheGen的关键部分进行解读 KV 缓存的经验见解 我们重点介绍了关于 KV 缓存值特性的三个观察结果。 虽然从本质上讲,很难证明它们适用于任何具有任何上下文的 LLM, 但在这里,我们使用一个代表性的工作负载来经验性地证明这些观察...
最近在调查LLM推理时KV Cache压缩的事,发现了 CacheGen这篇工作做的很好,简单做一个阅读笔记。这篇论文发布在SIGCOMM 2024,主要解决KV Cache在网络传输中的带宽问题,可以将KV Cache的大小减少3.5-4.3 倍。 基…
CacheGen是一个用于LLM推理系统的快速上下文加载模块。CacheGen最大限度地减少了加载和处理给定上下文的总体延迟,同时保留了LLM的性能。 图4 CacheGen主要组件示意图 具体来说,作者将总体延迟定义为获取输入(提示和上下文)与生成(解码)第一个Token之间的时间。作者将其称为首次Token时间 (TTFT),因为它测量用户何时可以...
通过将KV特征压缩为更紧凑的比特流,CacheGen显著降低了长上下文中KV特征传输的带宽使用量,从而优于直接获取KV特征的基线以及在没有KV缓存的情况下加载文本上下文的基线。对于较短的上下文,CacheGen直接自动选择加载文本上下文,而不是其KV特征。 图2 CacheGen有两种常见的做法:直接加载文本上下文或者加载缓存的KV特征 加...
cachegen.py env.yaml eval_longchat.py main.py run_adaptation.py run_cachegen.py run_quantization_baseline.py run_vanilla.py sigcomm_ae.md trace_generator.py README CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming ...
CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, whichembraces KV cache’s distributional properties, toencodeaKV cache into more compact bitstream representations withnegligible encoding/decoding overhead. This reduces...
Cancel Submit feedback Saved searches Use saved searches to filter your results more quickly Cancel Create saved search Sign in Sign up Reseting focus {{ message }} UChi-JCL / CacheGen Public Notifications You must be signed in to change notification settings Fork 11 Star 83 ...
First, CacheGen uses a custom tensor encoder, which embraces KV cache’s distributional properties, to encode a KV cache into more compact bitstream representations with negligible encoding/decoding overhead. This reduces the bandwidth demand to fetch the KV cache. Second, to main...
$ npm install -g appcachegen to install globally Usage appcachegen can be used at the command line or in your node.js code, $ appcachegen --help Usage: appcachegen [directory] [options] Options: -o, --output Write to file -i, --ignore Ignore file -r, --rules Extra rules file...
问通过CMake的qmlcachegen :找不到Qt安装为“”EN脚本同级目录下有一个标准的项目工作目录,此目录是...