phi-3-small是一个7B参数模型,采用标准的7B模型解码器结构,具备32层和4096隐藏层维度。为了减少KV ca...
更大的Small和Medium版本在扩展数据集的支持下表现更卓越。《Phi-3 技术报告:一个能跑在手机上的大模型》:https://arxiv.org/abs/2404.14219 小结 从基准测试上看,Llama 3 8B和Phi3 3.8B小模型都有较好的效果,它们不仅仅都是规模小,其实优化...
phi-3-mini模型采用了Transformer解码器架构,并且默认上下文长度为4K。此外,还引入了一种长上下文版本,...
去年 9 月,微软进一步探索这条道路,让 1.3B 参数的 Transformer 架构语言模型 Phi-1.5 显示出强大的编码能力。去年底,微软提出的 Phi-2 具备了一定的常识能力,在 2.7B 的量级上多个基准测试成绩超过 Llama2 7B、Llama2 13B、Mistral 7B 等一众先进模型。Phi-3 技术报告:https://arxiv.org/abs/2404....
论文地址:https://arxiv.org/abs/2306.11644 技术报告将这种数据驱动的方法称为「数据最优机制」(Data Optimal Regime)。在给定规模的情况下,尝试「校准」训练数据,使其更接近SLM的「数据最佳」状态。 这意味着在样本级别进行数据的筛选,不仅要包含正确的「知识」,还要能最大程度提升模型的推理能力。
去年 9 月,微软进一步探索这条道路,让 1.3B 参数的 Transformer 架构语言模型 Phi-1.5 显示出强大的编码能力。去年底,微软提出的 Phi-2 具备了一定的常识能力,在 2.7B 的量级上多个基准测试成绩超过 Llama2 7B、Llama2 13B、Mistral 7B 等一众先进模型。Phi-3 技术报告:https://arxiv.org/abs/2404....
最近,微软再次升级了Phi-3系列模型,最小尺寸的phi-3-mini(3.8B参数量)在更大、更干净的数据集(包含3.3T个tokens)上进行训练,在各大公开的学术基准和内部测试中,实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。 论文链接:https://arxiv.org/pdf/2404.14219.pdf ...
去年底,微软提出的 Phi-2 具备了一定的常识能力,在 2.7B 的量级上多个基准测试成绩超过 Llama2 7B、Llama2 13B、Mistral 7B 等一众先进模型。 Phi-3 技术报告:https://arxiv.org/abs/2404.14219 刚刚提出的 phi-3-mini 是一个在 3.3 万亿个 token 上训练的 38 亿参数语言模型。实验测试表明,phi-3-mini...
就在中午,在 arXiv 上悄咪咪的出现了一篇论文《Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone》 ,即:《Phi-3 技术报告:一个能跑在手机上的牛逼模型》,地址在这:https://arxiv.org/abs/2404.14219,宣示着 Phi-3 的到来。
Phi-3 技术报告:https://arxiv.org/abs/2404.14219 刚刚提出的 phi-3-mini 是一个在 3.3 万亿个 token 上训练的 38 亿参数语言模型。实验测试表明,phi-3-mini 的整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,例如 phi -3-mini 在 MMLU 上达到了 69%,在 MT-bench 上达到了 8.38。