原文链接:arXiv2024-LLM_survey.pdf Abstract:本文摘要概述了大型语言模型(LLMs)因其在多种自然语言处理任务上的卓越性能而受到广泛关注,特别是自2022年11月ChatGPT发布以来。LLMs通过在大量文本数据上训练数十亿个模型参数,获得了通用语言理解和生成的能力,这一点由scaling laws所预测。尽管LLMs的研究领域非常新,但...
的规模和质量对于LLM获得强大的能力至关重要。此外,为了有效地预训练 LLM,也需要设计好模型架构、加速方法和优化技术。 数据收集 相比小规模语言模型,LLM 更需要高质量数据来预训练模型,并且它们的模型能力很大程度上依赖于预训练语料库及其预处理方式。 数据来源 混合各种公共文本数据集 通用文本数据:网页、书籍、对话...
LLMSurvey A collection of papers and resources related to Large Language Models. The organization of papers refers to our survey "A Survey of Large Language Models". Please let us know if you find out a mistake or have any suggestions by e-mail: batmanfly@gmail.com (we suggest ccing ...
LLM Survey Report Our friends at The MLOps Community recently surveyed their members on multiple aspects of Large Language Model (LLM) development and deployment. The new survey sheds light on a number of topics: What kinds of organizations are deploying LLMs and where are they on the journey...
考虑到推测解码领域2023年以来飞速的研究进展,我们撰写了一篇系统性的survey,给出推测解码的统一定义和通用算法,详细介绍了推测解码研究思路的演化,并对目前已有的研究工作进行了分类梳理。在下文中,我们将文章内容凝练为太长不看版——分享一些关于推测解码关键要素的看法,以及目前常用的研究思路,欢迎感兴趣的小伙伴一...
Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward This repository contains the open-source code and benchmark results for the paper - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward. The benchmark assesses the performance of various compression and...
中文版的综述《大语言模型综述》:https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf 如何基于 LLM 做问答 Q:NebulaGraph 论坛现在累计的问答数据和点赞标记,是不是很好的样本数据,可以用来搞个不错的专家客服?
今年3月末,我们在arXiv网站发布了大语言模型综述文章《A Survey of Large Language Models》的第一个版本V1,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了广泛关注,收到了不少读者的宝贵意见。
LLM agent将LLM作为其数字大脑,掌握多种能力并具有高水平的智能。agent可以接收各种编码的数据作为输入,并相应地构建或访问知识库和技能库。有了足够的知识和提示,agent可以半自主地操作一系列任务。论文标题:A Survey of Reasoning with Foundation Models 论文链接:https://arxiv.org/abs/2312.11562v4 ...
第二种资源是最近论文《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》中绘制精美的进化树,该论文侧重于最流行的 LLM 和它们的关系。虽然读者看到了非常美观和清晰的可视化 LLM 进化树,但也有一些小的疑惑。例如不清楚为什么底部没有从原始 transformer 架构开始。此外开源标签并不...