为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型 (DOM) 树进行特征化处理。 这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。 研究团队使用这些HTM
古腾堡工程(Project Gutenberg,缩写:PG),由志愿者参与,致力于将文化作品的数字化和归档,并鼓励创作和发行电子书。该工程肇始于1971年,是最早的数字图书馆。其中的大部分书籍都是公有领域书籍的原本,古腾堡工程确保这些原本自由流通、自由文件格式,有利于长期保存,并可在各种计算机上阅读。截至2018年7月,古腾堡工程...
为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型 (DOM) 树进行特征化处理。 这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。 研究团队使用这些HTML文件集群构建...
为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型(DOM) 树进行特征化处理。 这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。 研究团队使用这些HTML文件集群构建了...
世界上最大的电子书库正被AI转录为有声书,免费向所有人开放! 这个项目由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。 任何用户都可以通过以下5个平台,免费获取到生成的语音书。
后来这台计算机碰巧成为组成因特网的计算机网络15个节点之一。Hart认为有朝一日公众都可以接触计算机,因而他决定将书籍电子化,供人们自由使用。刚好他背包里有一份美国独立宣言,该宣言也就成了古腾堡工程的的第一份电子文本。该工程的命名是为了纪念约翰内斯·古腾堡,他是一位德国15世纪的印刷商,推动了印刷机的...
在古腾堡计划中,你可以免费获取《电子书》的电子版本,其中包含了Halliday, David, Robert Resnick, 和 Kenneth S. Krane合著的《Physics》,该书于1992年由John Wiley & Sons在New York出版,其ISBN号为0-471-80457-6,对于学习物理基础和静电学理论具有指导价值。Griffiths的《Introduction to ...
Hart后来与卡内基梅隆大学达成协议,由对方主导古腾堡工程的财务。随着电子文本的增加,志愿者开始替代Hart...
微软MIT 等机构用 AI 将古腾堡计划的电子书转录为语音书,免费向公众开放,还公开了制作流程。而且用户还可以用自己的声音来进行配音。 世界上最大的电子书库正被 AI 转录为有声书,免费向所有人开放! 这个项目由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近 6 万本电子书库,利用 AI 文本转语音...
Project Gutenberg是一个数字图书馆,它的目标是为读者提供免费的电子书资源。 在这里,您可以选择免费下载或在线阅读epub和Kindle格式的电子书。这里的重点是提供美国版权已经过期的旧作品的电子书。成千上万名志愿者对这些电子书进行了数字化和仔细校对,让您享受阅读的乐趣。