标准化文章影响力数据集(NAID):用于训练 LLM 以预测文章的影响,包含文章的标题、摘要以及相应的\text{TNCSI}_\text{SP}等信息。NAID 包含超过 12,000 个数据条目,涵盖了 2020 年至 2022 年期间在 arXiv 上发布的“cs.CV”、“cs.CL” 和“cs.AI”类别中的论文,但排除了综述论文。特别是,“cs.AI” 类...
论文链接:arxiv.org/abs/2412.0916 来源:北航&阿里 / 笔者参与的论文 方向:LLM, Text Embedding 4.LLM作为Embedder 4.1 Backbone选择 Encoder-Decoder架构中主要使用T5,Decoder-Only架构主要使用Mistral。LLM2Vec[1]发现相比其他LLM,Mistral在将单向注意力(Casual Attention, 下同)改为双向注意力(bi-directional attent...
LLM数据处理算法提供了对数据样本进行编辑和转换、过滤低质量样本、识别和删除重复样本等功能。您可以根据实际需求组合不同的算法,从而过滤出合适的数据并生成符合要求的文本,方便为后续的LLM训练提供优质的数据。本文以开源RedPajama arXiv中的少量数据为例,为您介绍如何使用PAI提供的大模型数据处理组件,对arXiv数据进行...
论文作者:Keshu Wu, Pei Li, Yang Zhou, Rui Gan, Junwei You, Yang Cheng, Jingwen Zhu, Steven T. Parker, Bin Ran, David A. Noyce, Zhengzhong Tu 论文地址:https://arxiv.org/abs/2503.02239 随着联网自动驾驶汽车(CAVs)和...
论文地址:https://arxiv.org/abs/2310.02207 他们发现,在Llama-2-70B竟然能够描绘出研究人员真实世界的文字地图。在空间表征上,研究者对世界各地数以万计的城市、地区和自然地标的名称运行了Llama-2模型。他们在最后的token激活时训练了线性探测器,然后发现:Llama-2可以预测每个地方真实纬度和经度。在时间表征上...
论文地址:https://arxiv.org/pdf/2104.08691.pdf Prefix Tuning的简化版本,它给每个任务定义了自己的Prompt,然后拼接到数据上作为输入,但只在输入层加入prompt tokens,并且不需要加入 MLP 进行调整来解决难训练的问题,训练过程中将任务进行混合。而且通过实验发现,随着预训练模型参数量的增加,Prompt Tuning的方法会逼近...
大语言模型是世界模型,又添新证据!前不久,MIT和东北大学的两位学者发现,在大语言模型内部有一个世界模型,能够理解空间和时间。最近他们又有了新发现,LLM还可以区分语句的真假!论文地址:https://arxiv.org/abs/2310.06824 第0层时,「芝加哥在马达加斯加」和「北京在中国」这两句话还混在一起。随着层数越来...
今天为大家介绍香港中文大学联合上海人工智能实验室的最新研究论文,关于在LLM时代将各种模态的信息对齐的框架。 论文:OneLLM: One Framework to Align All Modalities with Language地址:https://arxiv.org/abs/2312.03700git: https://github.com/csuhan/OneLLM ...
论文链接:https://arxiv.org/abs/2305.17390项目网站:https://yuchenlin.xyz/swiftsage/ 基于此,AI2 (Allen Institute for AI) 的研究人员提出了 SwiftSage 智能体框架。他们通过模仿学习得到一个小型模型,然后将其与 LLM 进行融合。这样,便可以利用大量数据对小型模型进行微调,使其具备环境和任务相关的...
为突破这些限制,路由LLM(Routing LLM)范式应运而生——通过智能调度实现多个开源小模型的协同增效,以「组合创新」替代「规模竞赛」。代码:https://github.com/MilkThink-Lab/RouterEval 论文: https://arxiv.org/abs/2503.10657 论文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs 路由LLM实际...