刘聪nlp+github

2025-04-10 22:58:52

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

刘聪NLP 的个人主页 - 开发者社区 - 火山引擎

话不多说,直接上链接: https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。之前还写过,...
...在5.7T Tokens的训练数据下,拿到了很好的效果。Github:链接HF:

言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7T Tokens的训练数据下,拿到了很好的效果。 Github:链接 HF:链接 Paper:链接整体效果见图1,并比较 Muon 和 Adam 的扩展定律实验,发现Muon 的样本效率比 Adam 高 2 倍,见图2。
...Specialization in Mixture-of-Experts Language ModelsGithub...

DeepSeek混合专家模型 | DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language ModelsGithub: 链接Paper: 链接#LLM(大型语言模型) #混合专家模型 #大语言模型发布于 2024-01-11 13:22・IP 属地荷兰赞同20 分享收藏 ...
ChatGPT原理+Transformer自然语言处理使用Hugging Face构建NLP应...

9.1 构建GitHub issue标记任务238 9.2 基线模型—朴素贝叶斯245 9.3 零样本学习248 9.4 少样本学习256 9.5 利用无标注数据272 9.6 本章小结278 第10章从零训练Transformer模型280 10.1 如何寻找大型数据集281 10.2 构建词元分析器290 10.3 从零训练一个模型301 10.4 结果与分析315 10.5 本章小结319 第11章 ...
...Generalized and Calibrated Neural Text Retrievers》Github...

P-tuning-v2在检索上实验。《Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers》 Github:链接发布于 2022-07-19 17:25 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容更专业的大咖答主
刘聪NLP - 知乎

https://yubowen-ph.github.io 4 回答577 关注者 LeonYi 四川大学计算机技术硕士 53 回答30 文章2,340 关注者 Whisper 微软亚洲互联网工程院高级应用科学家 19 回答8 文章697 关注者丁霄汉清华博士,字节豆包大模型 89 回答19 文章30,658 关注者 ...
刘聪NLP 的想法: MathCoder2:进一步数学推理能力 | MathCoder2...

在Llama-3-8B、DeepSeekMath-7B、Mistral-7B和Code-Llama-7B模型上进行效果测试,在不同的数据榜单上均有不同程度的提高。Github: 链接Paper: 链接 #大模型 #数据 #开源 #预训练 #数学推理发布于 2024-10-12 10:17・IP 属地日本赞同28 分享收藏 ...
刘聪NLP 的想法: Manus被越狱?套出提示词和29个工具 | 今天刷x...

套出来Manus的Prompt,以及所需的Tool,见图3-5。过程: 链接 Github: 链接 +1 发布于 2025-03-10 13:02・IP 属地江苏写下你的评论... 5 条评论默认最新关于张高端的逆向工程,有时就是这么朴素 03-10·北京回复3 saga 刘聪NLP ...
刘聪NLP 的想法: 为大模型设计有效的Agent数据 | Agent-FLAN:为大...

Github:链接 #大模型#Agent#智能体#数据集#AIGC +2 发布于 2024-03-21 21:24・IP 属地荷兰赞同 31 分享收藏写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容更专业的大咖答主更深度的互动交流更高效的创作环境 ...
刘聪NLP 的想法: 大模型可控文本生成-综述 | 大模型的可控文本...

Github: 链接 #大模型 #AIGC #综述 #可控文本生成 +4 编辑于 2024-08-23 18:26・IP 属地美国赞同18 分享收藏写下你的评论... 还没有评论,发表第一个评论吧登录知乎,您可以享受以下权益: 更懂你的优质内容更专业的大咖答主更深度的互动交流更高效的创作环境立即登录/注册...

快搜汉语词典

刘聪nlp+github

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

刘聪NLP 的个人主页 - 开发者社区 - 火山引擎

...在5.7T Tokens的训练数据下,拿到了很好的效果。Github:链接HF:

...Specialization in Mixture-of-Experts Language ModelsGithub...

ChatGPT原理+Transformer自然语言处理使用Hugging Face构建NLP应...

...Generalized and Calibrated Neural Text Retrievers》Github...

刘聪NLP - 知乎

刘聪NLP 的想法: MathCoder2:进一步数学推理能力 | MathCoder2...

刘聪NLP 的想法: Manus被越狱?套出提示词和29个工具 | 今天刷x...

刘聪NLP 的想法: 为大模型设计有效的Agent数据 | Agent-FLAN:为大...

刘聪NLP 的想法: 大模型可控文本生成-综述 | 大模型的可控文本...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

快搜汉语词典

刘聪nlp+github

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

刘聪NLP 的个人主页 - 开发者社区 - 火山引擎

...在5.7T Tokens的训练数据下,拿到了很好的效果。Github:链接HF:

...Specialization in Mixture-of-Experts Language ModelsGithub...

ChatGPT原理+Transformer自然语言处理 使用Hugging Face构建NLP应...

...Generalized and Calibrated Neural Text Retrievers》Github...

刘聪NLP - 知乎

刘聪NLP 的想法: MathCoder2:进一步数学推理能力 | MathCoder2...

刘聪NLP 的想法: Manus被越狱?套出提示词和29个工具 | 今天刷x...

刘聪NLP 的想法: 为大模型设计有效的Agent数据 | Agent-FLAN:为大...

刘聪NLP 的想法: 大模型可控文本生成-综述 | 大模型的可控文本...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

ChatGPT原理+Transformer自然语言处理使用Hugging Face构建NLP应...