# 下载模型默认保存在:/mnt/workspace/.cache/modelscope/01ai/Yi-6B-200Kroot@dsw-30793-854c8686d8-jdjdf:/mnt/workspace/demos# mv /mnt/workspace/.cache/modelscope/01ai/Yi-6B-200K /tmp/# 查看有哪些文件是模型文件大小root@dsw-30793-854c
Yi模型采用经典的decoder-only Transformer架构的修改版本,其代码基于LLaMA。主要参数设置总结在表1中。从LLaMA到Yi模型的修改如下:注意力机制:LLaMA仅在最大的70B模型上使用分组查询注意力(GQA),而7B和13B模型使用全注意力。论文在易6B和易34B中都采用了GQA。GQA将查询头分为G组,每组查询共享单个键和值头。激活...
Yi-6B-200K.tar Yi-34B.tar Yi-34B-200K.tar 0 简介 开源Yi-34B模型可支持200K 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入,理解超过1000页的PDF文档。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就...
【雷峰网】近日,大模型初创公司零一万物发布了Yi 大模型 API 开放平台,为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。 零一万物由创新工场董事长兼首席执行官李开复创办于 2023 年 6 月,六个月后,零一万物便成功发布了 Yi 系列模型,包含 6B 和 34B 两个版本,并开源,打破了当时国产开源模型一直难...
基于此,我们提出了Yi视觉-语言(Yi-VL)模型,该模型结合了Yi-6B-Chat和Yi-34B-Chat语言模型,并融入了视觉Transformer(ViT)和投影模块。经过精心设计的三阶段训练,Yi-VL模型在双语多模态理解和生成方面展现出了卓越的性能。3 深度上扩展随着计算资源、模型规模以及数据量的不断增长,模型的性能也呈现出一种可...
在此前开源的6B、34B模型之上,今天,该公司宣布Yi-1.5开源系列同步升级,开源了6B、9B、34B不同参数规模,以及预训练、Chat模型等,包括Yi-34B Base+Chat、Yi-9B Base+Chat、Yi-6B Base+Chat。李开复称,Yi-1.5系列模型已经全面超越Gemma、Mistral以及Llama-3-8B模型,测评结果显示,Yi-1.5系列中34B模型在...
此次 Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-...
此次Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大...
Yi-34B和Yi-6B。虽然Yi系列大模型出道时间相对较晚,但从效果上来看,绝对称得上是后发制人。一出手即问鼎多项全球第一:Hugging Face英文测试榜单位居第一,以34B的大小碾压Llama-2 70B和Falcon-180B等一众大尺寸大模型;唯一成功登顶HuggingFace的国产大模型;C-Eval中文能力排行榜位居第一,超越了全球所有开源...
此次Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大...