话不多说,直接上链接: https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。 之前还写过,...
Github: 链接 #大模型 #AIGC #综述 #可控文本生成 +4 编辑于 2024-08-23 18:26・IP 属地美国 赞同18 分享收藏 写下你的评论... 还没有评论,发表第一个评论吧登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主 更深度的互动交流 更高效的创作环境立即登录/注册...
P-tuning-v2在检索上实验。 《Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers》 Github:链接 发布于 2022-07-19 17:25 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主
9.1 构建GitHub issue标记任务238 9.2 基线模型—朴素贝叶斯245 9.3 零样本学习248 9.4 少样本学习256 9.5 利用无标注数据272 9.6 本章小结278 第10章 从零训练Transformer模型280 10.1 如何寻找大型数据集281 10.2 构建词元分析器290 10.3 从零训练一个模型301 10.4 结果与分析315 10.5 本章小结319 第11章 ...
言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7T Tokens的训练数据下,拿到了很好的效果。 Github:链接 HF:链接 Paper:链接 整体效果见图1,并比较 Muon 和 Adam 的扩展定律实验,发现Muon 的样本效率比 Adam 高 2 倍,见图2。
https://yubowen-ph.github.io 4 回答577 关注者 LeonYi 四川大学 计算机技术硕士 53 回答30 文章2,340 关注者 Whisper 微软亚洲互联网工程院 高级应用科学家 19 回答8 文章697 关注者 丁霄汉 清华博士,字节豆包大模型 89 回答19 文章30,658 关注者 ...
TinyLLaVA | TinyLLaVA:A Framework of Small-scale Large Multimodal ModelsTinyLLaVA对不同视觉编码器、连接模块、语言模型、训练数据和训练配方的效果进行了实证研究。发现更好的数据质量与更好的训练配方相结合,较小的LLM可以始终获得与较大的LLM相同的性能。Paper: 链接Github: 链接HF: 链接 ...
刘聪NLP 大模型话题下的优秀答主 大模型评估综述:A Survey on Evaluation of Large Language ModelsGithub: 链接 发布于 2023-07-07 13:18・IP 属地荷兰 赞同3 分享收藏 写下你的评论... 还没有评论,发表第一个评论吧登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖...
在Llama-3-8B、DeepSeekMath-7B、Mistral-7B和Code-Llama-7B模型上进行效果测试,在不同的数据榜单上均有不同程度的提高。Github: 链接Paper: 链接 #大模型 #数据 #开源 #预训练 #数学推理 发布于 2024-10-12 10:17・IP 属地日本 赞同28 分享收藏 ...
Github:链接 #大模型#Agent#智能体#数据集#AIGC +2 发布于 2024-03-21 21:24・IP 属地荷兰 赞同 31 分享 收藏 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容 更专业的大咖答主 更深度的互动交流 更高效的创作环境 ...