图书数据集最有名的要数Books3 AI training dataset,但因版权原因从各大网站下架了,包括 AcademicTorrents.com上的磁力资源详情页也来个大大的提示(magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667 资源已经无人做种)。 Nexus 没有直接提Books4和Books3的关系,感觉Books4应该包含了Books3的内容。
由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。 下载数据集请登录爱数科(http://www.idatascience.cn) https://u.wechat.com/EHkbPcasD4GE9RGrnKMH5Tc (二维码自动识别) 数据集 | 中国租房信息数据集 数据集 |...
中文图书分类数据集中文图书分类数据集 喜爱 2 数据集包含的字段有:书名、作者、出版社、关键词、摘要、中国图书分类号、出版年月7个字段。 数据集包含13.3万余册图书信息。其中超过96.5%的图书,均为一个图书分类号。仅有少数图书具有多个图书分类号或没有分类号。
中国出版图书数据集包含2011年-2019年中国各省级行政区的图书出版种数的统计数据。本数据集可用于可视化分析。
图书数据集是指由大量图书内容构成的数据集合,这些图书可能涵盖小说、非小说、学术著作等多个类别。这些数据集通常通过数据抓取、清洗、整理等步骤形成,为研究者提供了丰富的文本资源。近年来,随着人工智能、自然语言处理等技术的快速发展,图书数据集在训练语言模型、进行文本分析等方面展现出了巨大的价值。 二、图书数据...
包含图书评分信息,其中评级分为明确、从 1 – 10 表示和用 0 表示的隐含值。 该数据集由德国弗莱堡大学于 2005 年发布,相关论文有《Improving Recommendation Lists Through Topic Diversification》。 论文地址:http://dwz.date/axbz 数据集怎么用? 《基于模型的协同过滤应用---图书推荐》 ...
数据集 | 图书数据集 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息
数据说明 数据集包含的字段有:书名、作者、出版社、关键词、摘要、中国图书分类号、出版年月7个字段。 数据集包含13.3万余册图书信息。其中超过96.5%的图书,均为一个图书分类号。仅有少数图书具有多个图书分类号或没有分类号。 只含一个分类号的图书数量统计如下图所示: ...
下载数据集请登录爱数科(www.idatascience.cn) 该数据是从Google图书商店获取的。使用Google API来获取数据。数据集中为每本书收集了九种属性。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。 原始发表:2022-01-25,如有侵权请联系...
近日,机器学习社区的一篇资源热贴「用于训练 GPT 等大型语言模型的 196640 本纯文本书籍数据集」引发了热烈的讨论。 该数据集涵盖了截至 2020 年 9 月所有大型文本语料库的下载链接。除此之外,它还包含了所有的 bibliotik(一个线上图书资源库)中书籍的纯文本,以及大量用于训练的代码。