谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一,在真实对话任务中比其两倍规模以上的模型表现还要好。如今
美国当地时间4月24日,苹果在Hugging Face上放出了自己的开源“小模型”家族——4个预训练的大模型OpenELM。图源:X 四款模型体量极小,参数量分别为 270M、450M、1.1B和3B。图源:Hugging Face 在Hugging Face页面上苹果表示,OpenELM(Open-source Efficient Language Models,即“开源高效语言模型”)在诸如电...
今天介绍一个开源的小型AI模型:TinyLlama(小羊驼)! 这是一个开源的小型语言模型,它的目标是在3 万亿个 tokens 上进行预训练,最终构建一个拥有 11 亿参数的语言模型。 TinyLlama 采用了 Llama 架构和分词器,这意味着它可以在许多基于 Llama 的开源项目中即插即用。 此外,TinyLlama 只有 11 亿的参数,体积小巧,...
在接受 Venturebeat 采访时,英伟达应用深度学习研究副总裁 Bryan Catanzaro 详细阐述了小型模型的优势。他说:「小型模型更容易获取和运行,可以有不同的商业模式,因为人们可以在家中自己的系统上运行它们。事实上,Mistral NeMo 可以在许多人已经拥有的 RTX GPU 上运行。」这一进展发生在 AI 行业的关键时刻。虽然很多...
TinyLlama与现有类似大小的开源语言模型相比表现较好。具体来说,TinyLlama在各种下游任务中都优于OPT-13B和Pythia14B。TinyLlama是开源的,旨在为语言模型研究者提高可访问性。在各种常识推理和问题解决任务上评估TinyLlama,并与几个具有相似模型参数的现有开源语言模型进行比较。基线模型 主要关注具有约10亿参数的解码器...
今天, Google发布了开源的小模型Gemma. Gemma使用的是与Google的商业Gemini大模型相同的技术, 但专注于小模型. 有意思的是,gemma这个名称来自于拉丁语, 意为“precious stone”, 中文是”宝石“ Gemma包括两个大小的模型, 分别是Gemma 2B与Gemma 7B, 每个模型又包括基础模型及指令微调模型 ...
Hugging Face官方发文,开源了扩展测试时计算的方法。用在小小小模型Llama 1B上,数学分数直接超过8倍大的模型,也超过了计算机科学博士生的平均分数(40%)。那么用在Llama 3B上呢?进步幅度更大,甚至能和20几倍大的70B模型媲美。虽然OpenAI o1的配方完全保密,没有发布实现细节或代码,但团队基于DeepMind公布的...
这可能是开源人工智能中最疯狂的一周(迄今为止),就让小语言模型卷的更猛烈些吧! 1. Mistral(与 Nvidia 合作)放弃了 Apache 2.0 许可的 NeMo 12B LLM,其优于 L3 8B 和 Gemma 2 9B。模型是多语言的,具有 128…
机器之心报道。 本周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。 最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模…
8月3日,国内AI开发者社区“魔搭”(ModelScope)上架两款开源模型Qwen-7B和Qwen-7B-Chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。 据介绍,通义千问Qwen-7B是支持中英等多种语言的基座模型,在超过2万亿token(文本单位)数据集上训练,而Qwen-7B-Chat是基于基座模型的中英...