本书详细介绍大数据采集与清洗的相关知识和技术,共9章,分别是概述、网络爬虫基础、网页数据抓取、缓存下载页面、并发/并行爬取、用Selenium抓取动态内容、Scrapy爬虫框架及其应用、大数据平台系统日志采集、pandas数据清洗。本书大体上由数据采集(第2~8章)和数据清洗(第9章)两部分内容构成,以Python作为编程语言。数据采集部分以Web数据采集为主,也涉及Hadoop大数据平台的数据采集,内容由浅入深,循序渐进,理论与实践相结合,帮助读者理解和掌握数据采集的相关技术;数据清洗部分主要介绍pandas库的使用,帮助读者掌握数据清洗的方法。本书每章都有配套的习题,有助于读者巩固所学知?识。
本书可作为高校数据科学与大数据技术、信息管理与信息系统等专业相关课程的教材,也可作为大数据工程师的必备手册,还可作为网络爬虫爱好者和计算机领域的技术人员的参考?书。
我要评论