《数据采集与预处理》是2019年11月人民邮电出版社出版的图书,作者是米洪、张鸰。内容简介 本书以任务驱动为主线,围绕企业级应用进行项目任务设计,主要内容包括数据采集与预处理准备、网络爬虫实践、日志数据采集实践和数据预处理实践,全面地讲述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技术,以及urllib、...
本书共8章,包括数据采集与预处理概述、数据采集与存储、数据采集进阶、数据清洗、数据规整与分组聚合、豆瓣电影排行榜数据采集与预处理、使用Scrapy框架与Selenium采集股市每日点评数据并可视化、房产数据预处理。 本书可作为高等院校大数据、人工智能、计算机等专业的教材使用,也可供相关科技人员参考。图书目录 第 1章 ...
《大数据采集与预处理技术》以大数据关键技术为主线,重点介绍了大数据采集技术和数据预处理技术。该书共7章。第1章为大数据概述,重点阐述了大数据的概念、大数据关键技术以及大数据采集和数据预处理的重要性,并对该书内容进行了概述;第2章在阐述传统数据采集相关技术基础上,从数据发展出发,剖析了大数据采集的特点和...
Kafka生产者消费者模型;通过“Scrapy网页数据采集”学习Scrapy框架配置及使用;通过“Requests客户端数据采集”学习Requests库的使用;通过“Kettle学生数据处理”学习Kettle工具的安装和基本使用;通过“NumPy股票数据处理”学习NumPy库的安装和使用;通过“Pandas旅游数据处理”学习Pandas库的安装和使用。《数据采集与预处理...
《数据采集及预处理基础与应用》是2024年人民邮电出版社出版的图书。内容简介 本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。...
《数据采集与预处理》是2022年人民邮电出版社出版的图书。内容简介 本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中...