vLLM is a fast and easy-to-use library for LLM inference and serving. Originally developed in the Sky Computing Lab at UC Berkeley, vLLM has evolved into a community-driven project with contributions from both academia and industry. vLLM is fast with: State-of-the-art serving throughput Ef...
vllm-project/vllm main 62Branches56Tags Code Folders and files Name Last commit message Last commit date Latest commit chaunceyjiang [Bugfix][v1] xgrammar structured output supports Enum. (#15594) Mar 28, 2025 3b00ff9·Mar 28, 2025...
vLLM开源社区已官方支持昇腾,并创建vLLMAscend这一社区维护的官方项目。这意味着用户可直接在昇腾上无缝...
vllm-project的GitHub存储库vllm对于那些对部署和提供大型语言模型(LLMs)感兴趣的人来说是一个值得关注的资源。该项目以其高吞吐量和内存效率而脱颖而出,这是至关重要的,因为最先进的LLMs通常需要数百GB的VRAM进行推断。vllm引擎利用... 内容导读 vllm...
[Hardware][Intel] Add CPU inference backend by @bigPYJ1151 inhttps://github.com/vllm-project/vllm/pull/3634 [HotFix] [CI/Build] Minor fix for CPU backend CI by @bigPYJ1151 inhttps://github.com/vllm-project/vllm/pull/3787 [Frontend][Bugfix] allow using the default middleware with a...
vllm-project/vllm最新发布版本:v0.6.6.post1(2024-12-27 14:24:26) Major Changes Align beam search withhf_model.generate. Stablelize AsyncLLMEngine with a background engine loop. Add support for CodeLLaMA. Add many model correctness tests. ...
https://github.com/xdit-project/xDiTgithub.com/xdit-project/xDiT 我们希望xDiT成为DiT推理领域的vLLM。正如一年前,LLM推理最关键的问题是如何做Batching,而业界缺少有效的方案,所以vLLM携创新Paged Attention+前人Continous Batching横空出世。现在,DiT推理最关键的问题是如何高效并行,业界的方案也比较匮乏,xD...
vllm_project(@_akhaliq):我们很高兴看到@vllm_project作为@huggingface hub本地应用的选项之一!它提供了简单的代码片段,可以快速测试模型。 我们很高兴看到@vllm_project作为@huggingface hub本地应用的选项之一!它提供了简单的代码片段,可以快速测试模型。 natolambert(@huggingface):@natolambert:对于开源人工智能来...
vllm: Sync v0.6.6 post1 from vllm-project 开启的 RubickRT:master src-openEuler:master RubickRT 创建于 2025-02-26 17:32 克隆/下载 vllm: Sync v0.6.6 post1 from vllm-project 此Pull Request 需要通过一些审核项 类型 指派人员 状态 审查 进行中 (0/1) 测试 进行中 (0/1) 此Pull ...
这是一个高效易用的大型语言模型推理引擎,专为解决推理速度慢、资源利用率低等问题而设计。它基于 PyTorch 和 CUDA,并结合内存优化算法(PagedAttention)、计算图优化和模型并行技术,大幅降低 GPU 内存占用,并充分利用多 GPU 资源提升推理性能。同时,vLLM 与 HF 模型无缝兼容。支持在 GPU、CPU、TPU 等多种硬件平台...