1、关于现有大模型数据集的归类 现有大模型数据集包括评估数据集Evaluation Datasets、传统任务数据集Traditional NLP Datasets、预训练数据集Pre-training Corpora、微调数据集Instruction Fine- tuning Datasets以及偏好数据集Preference Datasets,如下图所示,做了一个比较好的分类归纳。 2、LLM数据集的时间线 开源的数据集...
1、关于现有大模型数据集的归类 现有大模型数据集包括评估数据集Evaluation Datasets、传统任务数据集Traditional NLP Datasets、预训练数据集Pre-training Corpora、微调数据集Instruction Fine- tuning Datasets以及偏好数据集Preference Datasets,如下图所示,做了一个比较好的分类归纳。 打开网易新闻 查看精彩图片 2、LLM数...
1.这是一篇非常好的针对大模型数据集调研的文章,内容全面,结构清晰,对于想了解大模型数据的同学非常有帮助 2.大模型在NLP任务上表现优秀,与传统的NLP数据集有很大的关系,数据是AI的唯一营养来源。 (续) 6.传统NLP数据集 与专门用于指导微调的数据集不同,我们将自然语言任务专用的文本数据集分类,这些数据集是在大...
目前,提高大模型数学推理能力主要采取两条路径: 一是用使用数学数据集去微调模型,增强模型本身的逻辑推理能力。二是利用提示工程(prompt engineering)这一方法,即在不改变大模型本身的情况下,针对大模型的输入加以设计,让它的输出更加符合需求。 赵子龙等人认为:工业界的训练资源远远超过他所在学术界,因此他很难在微调...
1. seq-monkey 序列猴子开源数据集 1.0 序列猴子数据集是用于训练序列猴子模型的数据集,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。 直接使用:https://hyper.ai/datasets/30139 2. IEPile 大规模信息抽取语料库 IEPile 是由浙江大学研发的大规模、高质量的双语(中英)信息抽取 (IE) 指令微调数据...
10月30日消息(焦焦)从中国电信官网获悉,中国电信日前公告称,启动2024年大模型数据集建设工程(第二批)集中采购。 公告显示,中国电信第二批大模型数据集建设工程集采项目主要采购基础信息类数据和医疗农业类数据。基础信息类数据覆盖教育、卫健、交通、政务、政法公安、文宣、金融、文旅、物联网等各领域涉及视频、文本、...
景联文科技作为大模型数据服务商,拥有海量高质量大模型数据集。世界知识类期刊及高价值社区文本数据:高...
面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding,简称MMCU)的大规模的多任务测试数据集,填补了中文大语言模型能力测试缺失的一大空白。5月20日...
相比其他类似模型(如Pythia和OpenLLaMA使用了3000亿个词元,StableLM使用了8000亿个词元),MPT-7B的训练数据规模更大,其质量可与LLaMA-7B相媲美。该模型在MosaicML平台上进行训练,使用了440个GPU,训练过程耗时9.5天,并且没有人为干预,成本约为20万美元。与其他开放模型不同,MPT-7B开放了商业使用许可,并利用Flash...
数据集说明:MedTrinity-25M是一个大规模多模态医学数据集,包含超过2500万张图像,涉及10种模态和65种疾病。数据集通过自动化的数据构建流程生成,不依赖于配对的文本描述,而是通过专家模型和知识库增强的多模态大型语言模型生成多粒度视觉和文本注释。数据集的创建过程包括从90多个在线资源收集数据,应用专家模型识别感兴趣...