话不多说,直接上链接: https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。 之前还写过,...
言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7T Tokens的训练数据下,拿到了很好的效果。 Github:链接 HF:链接 Paper:链接 整体效果见图1,并比较 Muon 和 Adam 的扩展定律实验,发现Muon 的样本效率比 Adam 高 2 倍,见图2。
DeepSeek混合专家模型 | DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language ModelsGithub: 链接Paper: 链接#LLM(大型语言模型) #混合专家模型 #大语言模型 发布于 2024-01-11 13:22・IP 属地荷兰 赞同20 分享收藏 ...
9.1 构建GitHub issue标记任务238 9.2 基线模型—朴素贝叶斯245 9.3 零样本学习248 9.4 少样本学习256 9.5 利用无标注数据272 9.6 本章小结278 第10章 从零训练Transformer模型280 10.1 如何寻找大型数据集281 10.2 构建词元分析器290 10.3 从零训练一个模型301 10.4 结果与分析315 10.5 本章小结319 第11章 ...
P-tuning-v2在检索上实验。 《Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers》 Github:链接 发布于 2022-07-19 17:25 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主
https://yubowen-ph.github.io 4 回答577 关注者 LeonYi 四川大学 计算机技术硕士 53 回答30 文章2,340 关注者 Whisper 微软亚洲互联网工程院 高级应用科学家 19 回答8 文章697 关注者 丁霄汉 清华博士,字节豆包大模型 89 回答19 文章30,658 关注者 ...
在Llama-3-8B、DeepSeekMath-7B、Mistral-7B和Code-Llama-7B模型上进行效果测试,在不同的数据榜单上均有不同程度的提高。Github: 链接Paper: 链接 #大模型 #数据 #开源 #预训练 #数学推理 发布于 2024-10-12 10:17・IP 属地日本 赞同28 分享收藏 ...
套出来Manus的Prompt,以及所需的Tool,见图3-5。 过程: 链接 Github: 链接 +1 发布于 2025-03-10 13:02・IP 属地江苏 写下你的评论... 5 条评论 默认 最新 关于张 高端的逆向工程,有时就是这么朴素 03-10·北京 回复3 saga 刘聪NLP ...
Github:链接 #大模型#Agent#智能体#数据集#AIGC +2 发布于 2024-03-21 21:24・IP 属地荷兰 赞同 31 分享 收藏 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主 更深度的互动交流 更高效的创作环境 ...
Github: 链接 #大模型 #AIGC #综述 #可控文本生成 +4 编辑于 2024-08-23 18:26・IP 属地美国 赞同18 分享收藏 写下你的评论... 还没有评论,发表第一个评论吧登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主 更深度的互动交流 更高效的创作环境立即登录/注册...