赵鑫,李军毅,周昆,唐天一,文继荣,大语言模型,https://llmbook-zh.github.io/,2024. @book{LLMBook, title = {大语言模型}, year = {2024}, author = {赵鑫, 李军毅, 周昆, 唐天一, 文继荣}, address = {北京}, url = {https://llmbook-zh.github.io/}, } 内容贡献表 本书各章节的主要负责人...
Low contributions. Medium-low contributions. Medium-high contributions. High contributions. More 2024 Contribution activity October 2024 LLMBook-zh has no activity yet for this period. Loading Show more activity Seeing something unexpected? Take a look at the GitHub profile guide. Footer...
https://llmbook-zh.github.io/ 中文书下载链接1: https://github.com/LLMBook-zh/LLMBook-zh.github.io/blob/main/LLMBook.pdf 中文书下载链接2: http://aibox.ruc.edu.cn/zws/index.htm 全书章节组织: 一、背景与基础知识 第一章引言(大模型发展历程、重要技术概览) 第二章基础介绍(Scaling Law、GPT...
这是一门 GitHub 目前仍在密集更新的实操课程,主题是LLM 操作指南。 课程每部分都有详细理论讲解&实操代码文档,互相搭配使用,可以丝滑完成某个主题的学习。 Github截图 资源地址: http://github.com/peremartra/Large-Language-Model-Notebooks-Course 注意:大部分代码文档 Notebook 托管在了 Google Colab,一小部分...
https://github.com/antirez/freakwan/blob/main/osx-bte-cli/SerialBTE.m 代码主要是通过在 ChatGPT 上剪切粘贴我想要做的事情来编写的,由于刚开始我不太了解如何做,最初生成的代码没法正常运行,但我可以让 LLM 向我解释问题所在以及如何解决它。如果没有 ChatGPT,我能做得到吗?当然可以,但这不仅浪费了我的时...
开源地址:https://github.com/hpcaitech/SwiftInfer StreamingLLM 简介 大语言模型能够记住的上下文长度,直接影响了 ChatGPT 等大模型应用与用户互动的质量。如何让 LLM 在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练。常见的 KV Cache ...
参考论文LLaMa,主要从以下几个方面评价模型的性能:常识推理(BoolQ、PIQA、SIQA、HellaSwag、WinoGrande 、ARC easy 和 challenge 以及 OpenBookQA ),闭卷问答(Natural Questions 和 TriviaQA ),阅读理解(RACE阅读理解基准),数学推理(MATH 和 GSM8k),代码生成(HumanEval 和 MBPP),大规模多任务语言理解基准 MMLU ,该...
vLLM 还可以无缝支持许多 Huggingface 模型,包括以下架构:GPT-2 (gpt2、gpt2-xl 等);GPTNeoX (EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b 等);LLaMA (lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b 等)OPT (facebook/opt-66b...
- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)小羊驼和排位赛的「幕后英雄」4月初,UC伯克利学者联手UCSD、CMU等,最先推出了一个开源全新模型——130亿参数的Vicuna,俗称「小羊驼」。从那时起,Vicuna已在Chatbot Arena为数百万用户提供服务。最初,LMSYS的FastChat采用基于HF Transformers的服务后端...
数据使用情况。表 3 对比了 RedPajama 的原始数据比例和动态加载的域数据使用情况(图 7 展示了整个训练过程中域权重的变化)。与其他域相比,动态批量加载增加了 Book 和 C4 域的权重,这表明这些域更难恢复剪枝模型。下游性能。如图 6 所示,与在原始 RedPajama 分布上训练的模型相比,使用动态批量加载训练的...