- [2] [GitHub: LLMForEverybody](https://github.com/luhengshiwo/LLMForEverybody) 88 changes: 88 additions & 0 deletions 88 md/ollama.md Original file line numberDiff line numberDiff line change @@ -0,0 +1,88 @@ ## 导入 如今, 私有化部署一个大模型早已不是什么有门槛或技术含量的工...
luhengshiwo / LLMForEverybody Public Notifications Fork 93 Star 1.1k Code Issues Pull requests Actions Projects Security Insights Commit更新了README.md和draft/md文件中的分词器名称。 Browse files main (#32) luheng committed Oct 15, 2024 1 parent ae7f1f4 commit 901dab3 ...
真-忒修斯之船 计算机技术与软件专业技术资格证持证人 零,引言 如果你最近被deepseek 刷屏了,你应该会去阅读它的技术报告,尤其是v3和r1,这两篇技术报告默认读者对于当前的大模型训练技术很了解。 所以对于初学者来讲,阅读这些技术报告会有痛苦和挑战,第…阅读全文 赞同1 添加评论 分...
登录即可查看 超5亿 专业优质内容 超5 千万创作者的优质提问、专业回答、深度文章和精彩视频尽在知乎。立即登录/注册
[GitHub: LLMForEverybody](https://github.com/luhengshiwo/LLMForEverybody) 2 changes: 2 additions & 0 deletions 2 README.md Original file line numberDiff line numberDiff line change @@ -131,6 +131,8 @@ [大模型分布式训练并行技术(二)数据并行](01-第一章-预训练/大模型分布式训练并行技术...
为什么大型语言模型都在使用SwiGLU作为激活函数? 神经网络的激活函数(一)概述 神经网络的激活函数(二)Sigmiod、Softmax和Tanh 神经网络的激活函数(三)ReLU和它的变种 神经网络的激活函数(四)ELU和它的变种SELU 神经网络的激活函数(五)门控系列-GLU、Swish和SwiGLU 神经网络的激活函数(六)GELU和Mish Attention机制...
即 TP 大小 <= 每个节点的 gpu 411411 412412 ##参考 413413 414- 415414 ##欢迎关注我的GitHub和微信公众号,来不及解释了,快上船! 416415 417416 [GitHub: LLMForEverybody](https://github.com/luhengshiwo/LLMForEverybody) 0commit comments Comments 0(0)...
luhengshiwo committed Sep 29, 2024 1 parent 55fbd7d commit fc499e1 Showing 2 changed files with 14 additions and 14 deletions. Whitespace Ignore whitespace Split Unified 01-第一章-预训练 最美的数学公式-欧拉公式.md 看懂FlashAttention需要的数学储备是?高考数学最后一道大题!.md 4 changes:...
[GitHub: LLMForEverybody](https://github.com/luhengshiwo/LLMForEverybody) 仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork! 仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork! 0 ...gedAttention轻松、快速且廉价地提供LLM服务(中文版翻译)/0.png → ...gedAttention轻松、快速且廉价地提...
QLoRA(Quantized Low-Rank Adaptation)是一种针对大型预训练语言模型(LLM)的高效微调技术。它结合了量化和低秩适配(LoRA)两种技术,旨在减少模型微调过程中的内存占用和计算成本,同时尽量保持模型性能。 在QLoRA中,首先对模型的权重进行4位量化,这意味着模型的每个权重被表示为4位的数值,显著减少...