NLPJOB:https://www.nlpjob.com/ LLM Github面经汇总: GitHub - liguodongiot/llm-action: 本项目旨在分享大模型相关技术原理以及实战经验。 https://github.com/jackaduma/awesome_LLMs_interview_notes GitHub - youngyangyang04/leetcode-master: 《代码随想录》LeetCode 刷题攻略:200道经典题目刷题顺序,共60w...
https://github.com/RapidAI/Open-Llama 多节点(但节点间通信慢):考虑用流水线并行,参考另一个大佬的实现。 https://github.com/HuangLK/transpeeder 少量卡训练 如果资源特别少,显存怎么也不够,可以上LoRA。 https://github.com/shibing624/MedicalGPT 4. 增量预训练 训练流程 是怎么样? 数据预处理 参考LLa...
Github 代码:https://github.com/LC1332/Luotuo-Chinese-LLM 模型: 介绍:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 Linly 论文名称: 论文地址: Github 代码:https://github.com/CVI-SZU/Linly 模型: 介绍:提供中文对话...
遗憾的是,去年末准备语言考试和工作影响了面试准备,今后会更加平衡。分享的资源链接包括北大未名BBS、NLPJOB和一些技术学习资源的GitHub链接。
Github 代码:https://github.com/THUDM/ChatGLM2-6B 动机:在主要评估 LLM 模型中文能力的 C-Eval 榜单中,截至 6 月 25 日 ChatGLM2 模型以 71.1 的分数位居 Rank 0 ,ChatGLM2-6B 模型以 51.7 的分数位居 Rank 6,是榜单上排名最高的开源模型。
ref:GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. Hyperparameter Value n_layers 80 n_heads 64 d_model 8192 vocab size 151851 sequence length 32768 在位置编码、FFN激活函数和normalization的实现方式上,我们也采用了目...
这是一个每周热门paper github.com/dair-ai/ML-P 多轮对话的经验?答:目前LLM的多轮能力都比较一般;多轮:LLM本身;外挂;长度外推,可以支持更多的输入,比如多轮的输入;Lost in the Middle: How Language Models Use Long Contextsgithub.com/LC1332/Chat-【骆驼开源】Chat凉宫春日,将京阿尼的人物带到现实...