产教融合信息技术类“十三五”规划教材

数据采集与预处理

“十三五”江苏省高等学校重点教材
分享 推荐 0 收藏 78 阅读 8.3K
米洪 , 张鸰 (主编) 季丹 , 史律 , 张俊 (副主编) 978-7-115-51915-3

关于本书的内容有任何问题,请联系 郭雯

1.基于企业级项目,以任务驱动为主线,便于教师教学,学生理解。
2.配套资源齐全。配备课程标准、PPT课件、运行脚本、教案。
3.企业配套资源,院校完善体系结构。

内容摘要

本书以任务驱动为主线,围绕企业级应用进行项目任务设计,主要内容包括数据采集与预处理准备、网络爬虫实践、日志数据采集实践和数据预处理实践,全面地讲述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技术,以及urllib、Selenium基本库和BeautifulSoup解析库的相关知识与应用案例。
本书内容实用,可操作性强,语言精练、通俗易懂,可作为高等院校计算机应用技术、大数据技术与应用、软件技术、云计算技术与应用等计算机相关专业的教材,也可作为大数据分析、云计算应用领域技术人员的参考用书。

目录

目录 CONTENTS
项目1
数据采集与预处理准备 1
学习目标 1
项目描述 1
任务1 认识数据采集技术,熟悉数据采集平台 1
任务描述 1
任务目标 2
知识准备 2
任务实施 10
任务2 认识数据预处理技术 13
任务描述 13
任务目标 13
知识准备 13
任务实施 19

项目2
网络爬虫实践 24
学习目标 24
项目描述 24
任务1 使用urllib爬取北京公交线路信息 24
任务描述 24
任务目标 25
知识准备 25
任务实施 48
任务2 使用Selenium爬取淘宝网站信息 58
任务描述 58
任务目标 58
知识准备 58
任务实施 69
任务3 使用Scrapy爬取北京公交信息 75
任务描述 75
任务目标 75
知识准备 75
任务实施 78
任务4 创新与拓展 86
任务描述 86
任务目标 86

项目3
日志数据采集实践 87
学习目标 87
项目描述 87
任务1 Flume的安装和配置 87
任务描述 87
任务目标 88
知识准备 88
任务实施 95
任务2 Flume采集数据上传到集群 105
任务描述 105
任务目标 106
知识准备 106
任务实施 110
任务3 创新与拓展 118
任务描述 118
任务目标 118

项目4
数据预处理实践 119
学习目标 119
项目描述 119
任务1 用Pig进行数据预处理 119
任务描述 119
任务目标 120
知识准备 120
任务实施 134
任务2 用Kettle进行数据预处理 137
任务描述 137
任务目标 137
知识准备 137
任务实施 139
任务3 用Pandas进行数据预处理 150
任务描述 150
任务目标 150
知识准备 150
任务实施 153
任务4 用OpenRefine进行数据预处理 155
任务描述 155
任务目标 155
知识准备 155
任务实施 157
任务5 用Flume Interceptor对日志信息进行数据预处理 162
任务描述 162
任务目标 163
知识准备 163
任务实施 167
任务6 创新与拓展 176
任务描述 176
任务目标 176

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

米洪,主持省级项目3项;发表北大核心论文5篇;学院交通物联网技术科技创新团队骨干成员;江苏省高等职业院校教师专业带头人访问学者(东南大学);江苏省高校“青蓝工程”优秀中青年骨干教师。

同系列书

  • 数据分析基础与案例实战(基于Excel软件)

    孙玉娣 顾锦江 裴勇 林雪纲

    本书主要介绍了数据分析的基础知识和实操过程。全书分为8章,首先从数据分析技术概述入手,介绍了数据分析的基本概念...

    ¥39.80
  • 虚拟化与网络存储技术

    顾军林 徐义晗 米洪 朱晓彦 林雪纲

    本书较为全面地介绍了虚拟化技术、Qemu-KVM、Libvirt、Virt-Manager、网络虚拟化、传统的...

    ¥56.00
  • Vue应用程序开发

    刘海 王美妮 艾迪 王爱华 刘斌

    本书较为全面的介绍了Vue.js技术的基础入门到工程化项目开发,每个章节都以案例教学为引导,以培养能力为目的,...

    ¥49.80
  • Hadoop平台搭建与应用

    米洪 张鸰 郑莹 顾军林 林雪纲

    本书以任务驱动为主线,围绕企业级应用进行项目任务设计,介绍了平台的本地模式安装、伪分布式模式安装及完全分布式模...

    ¥39.80
  • Java EE企业级应用开发(SSM)

    朱利华 姜英 蒋卫祥 李斌 海龙

    本书较为全面地介绍了目前Java EE企业级应用开发中常用的三大轻量级流行框架Spring、Spring M...

    ¥59.80

购买本书用户

相关图书

  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80
  • 大数据通识教程(微课版)

    杨武剑 史麒豪 左浩 周苏

    “文明”是人类经过教化后达到的一种状态,代表着社会的进步。自人类社会发端以来,人类文明就进入了一个漫长的演进过...

    ¥59.80
  • 计算机视觉开发实战——基于OpenCV

    郭佳

    本书以实践为导向,将理论与实践相结合,深入浅出地介绍了使用Python与OpenCV进行计算机视觉实践的基本知...

    ¥49.80
  • 大数据技术原理与应用——从入门到实战

    蒋亚平

    本书全面系统地介绍了大数据的相关技术原理与应用方法。全书从理论知识入手,在介绍大数据相关理论知识的基础上,逐步...

    ¥59.80
人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部