大数据技术原理与应用——从入门到实战-图书-人邮教育社区

内容摘要

本书全面系统地介绍了大数据的相关技术原理与应用方法。全书从理论知识入手，在介绍大数据相关理论知识的基础上，逐步深入地讲解大数据技术，将理论与实践完美结合。本书分为大数据基础篇、大数据存储篇、大数据采集篇、大数据计算篇和大数据应用篇。全书共15章，内容包括大数据概述、Linux集群搭建、分布式文件系统HDFS、HDFS的安装与基本应用、分布式数据库系统HBase、HBase的安装与基本应用、Sqoop和Flume、数据分发工具Kafka、MapReduce计算框架与应用、基于内存的计算框架Spark、Spark的安装与应用、机器学习、基于Hive的交互式数据处理、数据同步工具与数据可视化和推荐算法与应用。本书在介绍Hadoop、HBase、Sqoop和Flume、MapReduce、Hive和Spark等相关章节时安排了入门级实验，且以电子资源的方式提供给学生，以便读者更好地学习和掌握大数据的关键技术。
本书可以作为高等院校计算机类、信息管理与信息系统等相关专业的大数据课程教材，也可供从事大数据技术开发、研究和应用的研究人员和工程技术人员参考。

诚邀您加入【人邮社大数据教师交流群】

第1篇　大数据基础

第1章大数据概述　2
1.1 大数据简介　2
1.1.1 数据及大数据分类　2
1.1.2 大数据的基本定义　3
1.2 大数据的特性　3
1.2.1 大数据时代　3
1.2.2 大数据的“4V”特性　4
1.3 大数据生态系统　6
1.3.1 大数据主要平台　6
1.3.2 大数据生态架构　6
1.4 大数据的应用　9
1.4.1 应用案例　9
1.4.2 大数据应用的特点　11
1.5 本章小结　11
思考与练习　11
第2章 Linux集群　13
2.1 计算机集群　13
2.1.1 集群的概念　13
2.1.2 集群的种类与特点　13
2.2 Linux操作系统　15
2.2.1 Linux特点与主要组成　15
2.2.2 Linux目录结构　17
2.3 Linux集群搭建　19
2.3.1 安装VMware虚拟机　19
2.3.2 安装CentOS　21
2.3.3 集群的配置　28
2.4 Linux命令　36
2.5 本章小结　41
思考与练习　42

第2篇　大数据存储

第3章分布式文件系统HDFS　44
3.1 Hadoop与HDFS概述　44
3.1.1 Hadoop　44
3.1.2 HDFS　46
3.2 HDFS 系统架构　47
3.2.1 系统架构概览　47
3.2.2 组件功能　48
3.3 数据存储　50
3.3.1 数据分块　50
3.3.2 机架感知　51
3.3.3 存储策略　51
3.4 文件操作过程　52
3.4.1 读文件　52
3.4.2 写文件　53
3.5 YARN概述　54
3.5.1 YARN　54
3.5.2 工作流程　57
3.6 本章小结　57
思考与练习　58
第4章 HDFS的安装与基本应用　59
4.1 HDFS的安装与配置　59
4.1.1 安装　59
4.1.2 配置　60
4.2 用户配置　67
4.2.1 编辑环境变量　67
4.2.2 创建数据目录　67
4.2.3 格式化　68
4.3 基本应用　69
4.3.1 启动与关闭　69
4.3.2 监控页面　70
4.3.3 文件上传与下载　71
4.3.4 运行示例程序　73
4.3.5 应用案例　75
4.4 本章小结　79
思考与练习　79
第5章分布式数据库系统HBase　81
5.1 新型结构化存储模式　81
5.1.1 列存储　81
5.1.2 Key-Value存储　82
5.1.3 图存储　82
5.1.4 其他存储　82
5.1.5 NoSQL和NewSQL　83
5.2 HBase 系统架构　83
5.2.1 基本架构　83
5.2.2 主要组件　83
5.3 HBase的数据模型　84
5.3.1 HBase的列存储模型　84
5.3.2 从逻辑表到物理存储　86
5.4 检索机制　86
5.4.1 分区检索　86
5.4.2 物理存储文件检索　87
5.5 读写过程分析　87
5.5.1 读取数据　87
5.5.2 写入数据　88
5.6 本章小结　89
思考与练习　90
第6章 HBase的安装与基本应用　91
6.1 HBase的安装与配置　91
6.1.1 解压并安装HBase　91
6.1.2 系统配置　92
6.2 HBase基本应用　93
6.2.1 启动与关闭　93
6.2.2 监控页面　94
6.2.3 Shell的基本应用　95
6.3 ZooKeeper的安装与应用　97
6.3.1 ZooKeeper简介　97
6.3.2 安装与基本应用　98
6.3.3 基于独立安装的ZooKeeper运行HBase　100
6.4 本章小结　101
思考与练习　101

第3篇　大数据采集

第7章 Sqoop和Flume　104
7.1 数据采集概述　104
7.1.1 内部数据采集　104
7.1.2 外部数据采集　105
7.2 MySQL的安装与应用　105
7.2.1 MySQL的安装　105
7.2.2 MySQL的基本应用　107
7.3 ETL工具Sqoop　109
7.3.1 Sqoop简介　109
7.3.2 Sqoop的安装与配置　110
7.3.3 Sqoop的基本应用　112
7.4 日志采集工具Flume　116
7.4.1 Flume的系统架构　116
7.4.2 Flume的安装与配置　117
7.4.3 Flume的基本应用　118
7.5 本章小结　119
思考与练习　120
第8章数据分发工具Kafka　121
8.1 Kafka简介　121
8.1.1 Kafka架构　121
8.1.2 发布与订阅　122
8.2 典型使用场景　122
8.2.1 消息系统　122
8.2.2 网站活性跟踪　123
8.2.3 日志收集　123
8.3 工作原理分析　123
8.3.1 工作流程　123
8.3.2 发送消息　124
8.3.3 消费消息　124
8.4 Kafka的安装与基本应用　125
8.4.1 Kafka的安装与配置　125
8.4.2 Kafka的基本应用　126
8.4.3 Kafka集成Flume　129
8.5 本章小结　132
思考与练习　132

第4篇　大数据计算

第9章 MapReduce计算框架与应用　134
9.1 MapReduce计算框架　134
9.1.1 计算框架概览　134
9.1.2 主要组件分析　135
9.2 计算过程分析　136
9.2.1 Map阶段　137
9.2.2 Reduce阶段　137
9.2.3 Shuffle阶段　138
9.3 编程实践　139
9.3.1 第一个MapReduce程序：
WordCount　139
9.3.2 第二个MapReduce程序　146
9.4 本章小结　152
思考与练习　153
第10章基于内存的计算框架Spark　154
10.1 Spark系统架构　154
10.1.1 架构概览　154
10.1.2 主要组件　155
10.1.3 Spark和HDFS的配合关系　156
10.2 Spark的核心概念　157
10.2.1 RDD及其特性　157
10.2.2 RDD的依赖关系　159
10.2.3 DAG与Stage划分　160
10.3 Spark工作流程　162
10.3.1 流程分析　162
10.3.2 流程特点　164
10.4 本章小结　164
思考与练习　165
第11章 Spark的安装与应用　166
11.1 Scala编程语言　166
11.1.1 安装编程环境　166
11.1.2 Scala语言的特点　169
11.2 Spark的安装、配置与基本应用　169
11.2.1 Spark的安装与配置　169
11.2.2 Spark的基本应用　173
11.3 应用程序设计　177
11.3.1 安装集成开发环境IDEA　177
11.3.2 第一个Spark程序：分布式估算圆周率　182
11.4 本章小结　195
思考与练习　195

第5篇　大数据应用

第12章机器学习　198
12.1 机器学习概述　198
12.1.1 机器学习算法　198
12.1.2 大数据与机器学习　199
12.2 基于Spark的机器学习库　201
12.2.1 Spark MLlib　201
12.2.2 TensorFlowOnSpark　203
12.3 机器学习应用示例　204
12.3.1 决策树与随机森林模型　204
12.3.2 基于Spark MLlib的贷款风险预测　205
12.4 本章小结　218
思考与练习　218
第13章基于Hive的交互式数据处理　220
13.1 Hive系统架构与安装　220
13.1.1 Hive系统架构　220
13.1.2 Hive的安装与配置　221
13.2 数据预处理　226
13.2.1 数据查看与扩展　226
13.2.2 数据过滤　228
13.2.3 数据上传　228
13.3 创建数据仓库　229
13.3.1 基本命令　229
13.3.2 创建Hive分区表　230
13.3.3 创建Hive分桶表　233
13.3.4 Hive内置函数　234
13.4 数据分析　235
13.4.1 数据仓库分层　236
13.4.2 准备数据　237
13.4.3 用户行为分析　240
13.4.4 实时数据　245
13.5 本章小结　245
思考与练习　245
第14章数据同步工具与数据可视化　247
14.1 数据同步工具DataX　247
14.1.1 DataX的原理　247
14.1.2 DataX的基本安装和使用　248
14.2 数据可视化　250
14.2.1 数据可视化概述　250
14.2.2 搭建数据库　251
14.2.3 数据可视化分析　252
14.3 本章小结　253
思考与练习　254
第15章推荐算法与应用　255
15.1 推荐算法概述　255
15.1.1 基于人口统计学的推荐算法　255
15.1.2 基于内容的推荐算法　256
15.1.3 协同过滤推荐算法　256
15.2 协同过滤推荐算法分析　257
15.2.1 基于用户的协同过滤推荐算法　257
15.2.2 基于物品的协同过滤推荐算法　258
15.2.3 基于模型的协同过滤推荐算法　259
15.3 Spark MLlib推荐算法应用　260
15.3.1 ALS算法原理　260
15.3.2 ALS算法应用设计　262
15.4 本章小结　267
思考与练习　267