除此之外,我们还将 CPM-Ant 进行了压缩。这些压缩的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有这些模型压缩尺寸都可以对应于现有的开源预训练语言模型的经典尺寸。 考虑到用户可能会在我们发布的检查点上进行进一步的开发,我们主要使用任务无关的结构化剪枝来压缩 CPM-Ant。剪枝过程也是渐进的,即从 10B 到 7B,从...
在我们的实验中,CPM-Ant 仅仅微调了 6.3M 参数就在 3/6 个 CUGE 任务上取得了最好的结果。这一结果超越了其他全参数微调的模型,举例来说:CPM-Ant 的微调参数量仅为 CPM2(微调了 11B 参数) 的0.06%。 部署经济 BMCook [7] 和 BMInf [4] 工具包让我们能够在有限的计算资源下驱动 CPM-Ant。基于 BMI...
清华系面壁智能开源中文多模态大模型VisCPM:吟诗作画能力惊艳 机器之心发布 机构:面壁智能 再现破壁式成就,VisCPM强势来袭!2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM 是 中文首个基于搜索的...
2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型,中文能力登顶权威榜单 ZeroCLUE,英文能力打平 LLaMA。
2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型,中文能力登顶权威榜单 ZeroCLUE,英文能力打平 LLaMA。
CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。 CPM-Bee-10B是面壁智能联合OpenBMB发布的一个最高有100亿参数规模的开源大语言模型。该模型从零开始自主训练,...
目前除了Agent技术框架,OpenBMB还开源了CPM-Ant、CPM-Bee 10B基础模型,BMTrain、BMCook、 BMInf 、OpenPrompt、OpenDelta等大模型全流程加速工具包,为中国大模型开源事业做出了独树一帜的贡献。 清华NLP实验室,则是国内最早系统开展深度学习与大模型研究的单位,团队在国际顶级学术会议和国际权威期刊发表论文200余篇,...
第一期模型 CPM-Ant 已经在9月16日圆满发布,实现了计算高效、性能优异、部署经济、使用便捷和开放民主五大特点。第二期 CPM-Bee 于10月13日开启了训练,此次登顶 ZeroCLUE,正是团队潜心训“模”的阶段性成果。 CPM-Bee 的技术报告和模型将在年后发布,敬请大家期待!
在今年九月,OpenBMB发布了CPM-Ant。它是一个开源的中文预训练语言模型,拥有 10B 参数,也是国内首个直播训练百亿大模型,训练耗时 68 天,花费 43 万人民币。基于 CPM-Ant,所有大模型开发者与爱好者都可以开发感兴趣的文本趣味应用,比如文本劲爆标题生成。同时,本次分享曾国洋还会带来CPM-Live二期大模型CPM-Bee的...
清华CPM-Ant的简介CPM-Ant是一个开源的中文预训练语言模型,拥有10B参数。它是CPM-Live直播训练过程中的第一个里程碑。训练过程是低成本和环境友好的。基于增量微调(delta tuning)方法,CPM-Ant在CUGE基准测试中取得了优异的结果。除了完整的模型,我们还提供各种压缩版本以适应不同的硬件配置。检查点是完全开放的,CPM...