刘聪NLP 3月24日 10:10 来自HUAWEI Mate 50 转发微博 @零重力瓦力 一款基于多模态大模型的 SVG 代码生成器。它将矢量化任务转换为代码生成任务,直接在 SVG 代码空间进行解析和生成。这种方式的最大优势在于,它不单单是对图像轮廓的拟合,而是结合了视觉和语言模型的能力,理解图像的语义结构,从而生成更紧凑...
刘聪NLP 2025-03-03 DeepSeek开源周第四天-DualPipe、EPLB 开源大模型数据库机器学习 话不多说,直接上链接: https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠...
刘聪NLP 大模型话题下的优秀答主 大家好,我是刘聪NLP。 上周一开始看腾讯混元发了个x,以为HunYuan-T1要开源。结果是新模型产品上新。 特点:首个超大Hybrid MamBa模型,推理速度快,效果(Benchmark上)不错。 本来是周五晚上23点的发布会,当时只顾着看Qwen3的Moe代码来着,没注意。给大家带来一份迟来的测...
刘聪NLP LLM(大型语言模型) 话题的优秀答主 话不多说,import deepseek as openai 今天的量是管饱的,一口气开了3个 DualPipe 、 EPLB 和 一个训推分析数据结果。相较于前三天的Hopper GPU优化,今天的都能用~ DeepSeek 开源周第一天开源的项目 FlashMLA,有哪些亮点值得关注? DeepSeek 开源周第二天开源…...
刘聪NLP 25-01-28 10:42 发布于 辽宁 来自 HUAWEI Mate 50 入驻微博啦,以后多分享AIGC前沿知识,欢迎讨论。#大模型##新人##人工智能# û收藏 转发 1 ñ1 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候......
Hugging Face Transformers创建者联合撰写!NLP领域的标准工具书!深入解析ChatGPT技术、算法、原理和训练方法 作者:刘聪 杜振东 涂铭 沈盛宇 [瑞士]路易斯·汤斯顿,[瑞士]莱安德罗·冯·韦拉,[法]托马斯·沃尔夫出版社:机械工业出版社出版时间:2024年06月
刘聪人物简介: 一、刘聪担任职务:担任雄县融昶租赁有限公司经理,雄县嘉恒建材销售有限公司经理;二、刘聪的商业合作伙伴:基于公开数据展示,刘聪目前有3个商业合作伙伴,包括杨文浩、吴肖盟、吴肖盟等。 老板履历 图文概览商业履历 任职全景图 投资、任职的关联公司 商业关系图 一图看清商业版图 合作伙伴 了解老板...
知乎ID为“刘聪NLP”,拥有公众号“NLP工作站”。 杜振东 资深NLP技术专家和AI技术专家,南京云问科技NLP研究院院长,国家人工智能标准委专家、AIIA 人工智能技术专家、CCF智能机器人专业组首批委员。拥有10年机器学习与文本挖掘经验,8年中文自然语言处理实战经验,参与制定6项国家人工智能总体组标准,编著有《会话式AI》《...
刘聪NLP 大模型话题下的优秀答主 减缓领域微调遗忘性,解决多领域知识混淆 | REGA旨在解决大模型在领域微调后出现的灾难性遗忘问题,以及解决多领域训练一个模型出现领域混淆问题。《Role Prompting Guided Domain Adaptation with General Capability Preserve for Large Language Models》主要三步:第一步,自我蒸馏...
刘聪NLP 大模型话题下的优秀答主 MathCoder2:进一步数学推理能力 | MathCoder2,通过持续预训练来提高大模型的数学推理能力。开源了MathCode-Pile数据集,19.2B Token的高质量数据集,包含数学相关的网页数据、使用数学包的代码、数学书籍、合成数据等。同时也开源了数据收集和处理的相关代码,过程可复现。在合成...