本书以项目为引领,任务为驱动,围绕企业级数据采集与预处理应用进行项目任务设计。全书共5个项目,包括数据采集与预处理准备、网络爬虫实践、日志数据采集实践、使用Sqoop进行数据迁移、数据预处理实践。本书全面地讲述Scrapy、Flume、Sqoop、Kettle、pandas等技术,以及urllib、Selenium爬虫基本库和BeautifulSoup解析库的相关知识与应用案例。
本书内容实用,可操作性强,语言精练、通俗易懂,可作为应用型本科、职业本科、高职高专大数据技术等专业的教材,也可作为大数据分析领域从业人员的参考书。
我要评论