在大型语言模型(LLM)和多模态模型训练中,公开数据集是构建模型能力的核心资源。以下是涵盖文本、多模态、代码、专业领域等方向的公开数据集分类及详细分析,包含数据规模、特点和使用场景。 一、通用文本预训练数据集 1. 英文数据集 (1)Wikipedia 数据量:英文维基百科全文(约30亿词,6M+页面)。 特点:结构化程度
如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接查询公开数据集中的表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。 简介 MaxCompute开放的公开数据集类别包括:GitHub公开事件数据、国家统计数据、TPC性能测试数据、数字商业类数据、生活服务类数据、金...
● 综合科研数据平台 ● 专项研究数据库 ● Github汇总的EEG数据库 ● 具体EEG数据集列表 1.运动影像数据 2.情绪识别数据 3.误差相关电位(ErrP) 4.视觉诱发电位(VEPs) 5.事件相关电位(ERPs) 6.慢皮质电位(SCPs) 7.休息状态 8.音乐与EEG 9.眨眼/眼动 10.其他 情绪分析相关数据库 01 DEAP数据集 数据类...
HaGRID 大小为716GB,数据集包含552,992 个FullHD (1920 × 1080) RGB 图像,分为18类手势。no_gesture此外,如果框架中有第二只手,则某些图像具有等级。这个额外的类包含123,589 个样本。数据被分成 92% 的训练集和 8% 的测试集user_id,其中 509,323 幅图像...
公开数据集 本章的机器学习测试用例使用官网数据集,请从官网下载house、HIGGS、nytimes、Kosarak、DEEP1B、Mnist8m、Epsilon、MESH_DEFORM。下文所有的数据集下载解压上传均在server1节点进行。 下载官网house数据集 新建“/test/dataset/ml”目录,并进入该目录。
开发人脸识别系统,人脸数据集是必须的。所以在我们开发这套人脸识别系统的准备工作就是获取人脸数据集。本章将从公开的数据集到自制人脸数据集介绍,为我们之后开发人脸识别系统做好准备。 公开人脸数据集 公开的人脸数据集有很多,本中我们就介绍几个比较常用的人脸数据集。
业务系统数据库提取网络爬虫自主生成程序语言随机生成公开数据集下载从业务系统数据库提取需要在公司数据库系统使用,对于学习者而言这部分数据取到较为困难,并且也没有公司会愿意开放数据;通过网络爬虫进行数据爬取需要一定的编程语言能力;自主生成和程序语言随机生成又会与实际业务产生较大偏差,因此,在学习数据分析的时候最...
简介:ISCX VPN-nonVPN是一个广泛用于网络流量分类研究的公开数据集。该数据集包含了加密和非加密的VPN流量,按照不同标签方式分为ISCX-VPN-App和ISCX-VPN-Service,分别对应17类和12类不同的应用和服务。这些数据集不仅适合用于加密流量分类研究,还可以用于评估网络流量分类算法的性能。 获取方式:数据集可以从相关研...
在前面的文章中曾分享过一些公开数据集,今天我将继续分享目前为止做过的医学影像诊断的一部分公开数据集给大家。 1、BraTS2021数据集 BraTS2021 是一个大规模的脑部多模态 MR 脑胶质瘤分割数据集,包括 2,040 位患者的 8,160 张 MRI 扫描。每位患者都包含 T1、T1Gd、T2 ...
为了加速图像采集,CMR 图像重建 (从高度恢复高质量的临床可解释图像 欠采样的K空间数据)近年来引起了人们的广泛关注。特别 基于人工智能的图像重建算法在以下方面显示出巨大的潜力 通过利用高度欠采样的数据来提高成像性能。目前,CMR领域 重建缺乏公开的、标准化的、高质量的数据集来开发和基于人工智能的CMR重建评估。