中国科大满血版DeepSeek,上线! 为更好地服务广大师生,支持师生尝试利用人工智能技术辅助教学、科研和自主学习,网络信息中心携手华为技术有限公司依托鲲鹏昇腾科教创新卓越中心完成DeepSeek-R1(671B)完整版的本地部署并试运行上线,面向全部在校师生提供服务。同时接入了由我校知识库训练的Qwen(72B)大模型,可以随时帮师生...
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoro...
深入理解 DeepSeek 与企业实践(一):蒸馏、部署与评测 ZStack云计算 已认证账号 在人工智能迅猛发展的时代,每一次技术突破都如同在行业湖面投下巨石,激起千层浪。2025 年 1 月 20 日,DeepSeek-R1 震撼发布,迅速点燃 AI 社区的热情,成为万众瞩目的焦点。DeepSeek-R1 的卓越表现引发广泛热议,相信大家对它充满...
中国科学技术大学-国家高性能计算中心-先进数据系统实验室 这里是中国科学技术大学 ADSL 实验室的系统论文阅读小组,我们每学期举办关于系统领域最新论文的阅读分享。本篇文章主要是对讨论过程中问答环节的总结。 Reading Group 的主页地址:ADSL Reading Group bilibili 链接:USTC-NHPCC的个人空间 本次分享有关 DeepSeek-...
笔点导航(www.bidianer.com)是一个简洁的网址导航网站。你可以自定义上网常用网址、自定义你需要的工具模块。你还可以发现、收集、分享,Web开发、设计工作中的优质资源、干货。
DeepSeek 3FS 源码解读——磁盘 IO 篇 howard GitHub howardlau1999 请先阅读: 书接上回,作为一个文件系统,磁盘 IO 也是非常重要的一环。在大致浏览了源码后,个人发现 3FS 中,发起磁盘 IO 的可能是前台服务客户端读写的线程、负责链式复制的线程、也有可能是后台的垃圾回收线程。同时,和网络 IO 充分协程化不...
python -m ensurepip 设置pip镜像 由于众所周知的原因,这边使用ustc的镜像站进行加速下载,我喜欢ustc的镜像站。 pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple pip -U pip configsetglobal.index-url https://mirrors.ustc.edu.cn/pypi/web/simple...
OpenAI Deep Research 真的非常好用,而且并不需要每个月氪金 200 刀,HuggingFace 的开源版也不错,或者用 DeepSeek R1 / o3-mini / Gemini 2.0 Flash 自己手搓一个也不难(前两天国科大 AI 实践课程一些同学就搞出来了)。手搓的关键是 less structure, more intelligence,就是要让 reasoning model 自己决定下一...
【击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世|SiliconCloud上新】6月17日,深度求索正式开源了#DeepSeek-Coder-V2#模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越#GPT-4-Turbo#、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种 .....
Baidu's ERNIE and Moonshot AI's Kimi are advanced content creation tools. Meta AI's LLaMA is a leading open-weight model, with LLaMA3-8B and LLaMA3-70B evaluated here. ZhipuAI's GLM-4 outperforms LLaMA3-8B, and DeepSeek's DeepSeek-V2 is a robust MoE model comparable to GPT-4-...