大数据应用技术-图书-人邮教育社区

内容摘要

本书主要结合当前流行的大数据框架Hadoop、HBase、Hive、、Storm、Flume、Kafka、Spark、Spark GraphX，采用案例形式系统地讲解大数据应用技术的相关知识。全书共有8章，分别介绍了大数据概论、大数据基础知识、大数据文件存储系统、大数据文件存储系统、大数据计算技术、大数据应用程序协调服务、大数据存储应用技术、大数据仓库应用技术、大数据实时应用技术。为了让读者能够及时地检验自己的学习效果，把握自己的学习进度，各章后面都附有相应的习题。

第1章大数据概论 1
1.1　数据的基本概念　1
1.1.1　什么是数据　1
1.1.2　数据组成结构　2
1.1.3　数据的价值　4
1.2　什么是大数据　4
1.2.1　大数据产生背景　4
1.2.2　大数据发展的原动力　5
1.2.3　大数据基本概念与特征　6
1.2.4　大数据与云计算　6
1.2.5　大数据与人工智能　7
1.3　大数据主要技术　8
1.3.1　概述　8
1.3.2　大数据采集与处理　9
1.3.3　大数据存储技术　9
1.3.4　大数据计算技术　11
1.3.5　大数据可视化　12
1.3.6　大数据安全　12
1.4　大数据主流框架　14
1.4.1　Hadoop　14
1.4.2　ZooKeeper　14
1.4.3　HBase　14
1.4.4　Hive　14
1.4.5　Storm　15
1.4.6　Flume　15
1.4.7　Kafka　15
1.5　本章小结　15
1.6　习题　16

第2章　大数据基础知识　17

2.1　概述　17
2.1.1　Hadoop产生背景　17
2.1.2　Hadoop核心模块　18
2.1.3　Hadoop相关项目　19
2.2　Common　20
2.3　HDFS　20
2.3.1　HDFS设计思想　20
2.3.2　HDFS体系结构　21
2.3.3　文件系统命名空间　22
2.3.4　数据复制　22
2.3.5　副本放置策略　23
2.3.6　副本选择　23
2.3.7　安全模式　23
2.3.8　元数据的持久性　24
2.3.9　通信协议　24
2.3.10　健壮性　24
2.4　YARN　25
2.5　MapReduce　27
2.6　Hadoop应用场景　29
2.7　Hadoop环境配置　29
2.7.1　Hadoop配置基础知识　29
2.7.2　Hadoop安装模式　29
2.7.3　Hadoop版本选择　30
2.7.4　Hadoop伪分布模式搭建　31
2.8　基于Hadoop平台的IDEA开发环境搭建　36
2.8.1　Maven项目的创建　36
2.8.2　编写经典的MapReduce
程序WordCount　38
2.9　本章小结　46
2.10　习题　46

第3章　大数据文件存储系统　48

3.1　数据块　48
3.2　HDFS工作流　49
3.2.1　HDFS写数据过程　49
3.2.2　HDFS读数据过程　50
3.3　HDFS应用程序设计　51
3.3.1　HDFS Shell命令　51
3.3.2　Web接口　53
3.3.3　HDFS API　55
3.3.4　HDFS API写操作　57
3.3.5　HDFS API读操作　59
3.4　HDFS存储格式　60
3.5　Hadoop I/O　61
3.5.1　压缩　61
3.5.2　I/O序列化类型　64
3.6　本章小结　67
3.7　习题　67

第4章　大数据计算技术　68

4.1　MapReduce运行过程　68
4.2　MapReduce编程过程　70
4.3　MapReduce数据类型　72
4.4　Mapper输入　73
4.5　Shuffle原理　76
4.5.1　Shuffle工作原理　76
4.5.2　自定义分区　79
4.5.3　自定义排序　81
4.5.4　自定义分组　82
4.6　Combiner本地合并优化　83
4.7　Reducer输出　84
4.8　计数器　89
4.9　MapReduce应用开发　91
4.9.1　最大最小计数值　92
4.9.2　全排序　94
4.9.3　二次排序　97
4.10　本章小结　102
4.11　习题　102

第5章　大数据应用程序协调服务　103

5.1　ZooKeeper概述　103
5.1.1　ZooKeeper简介　103
5.1.2　ZooKeeper常用术语　104
5.1.3　ZooKeeper设计目标　104
5.1.4　数据模型和分层命名空间　105
5.1.5　ZooKeeper工作原理　106
5.2　ZooKeeper集群搭建　107
5.2.1　集群规划　107
5.2.2　ZooKeeper集群安装　107
5.3　ZooKeeper与Hadoop高可用性　110
5.4　Hadoop高可用性集群部署　111
5.4.1　集群规划　111
5.4.2　集群部署　112
5.5　本章小结　122
5.6　习题　122

第6章　大数据存储应用技术　123

6.1　HBase 基础知识　123
6.1.1　HBase产生背景　123
6.1.2　HBase数据模型　124
6.1.3　HBase体系结构　125
6.1.4　HBase与HDFS　127
6.1.5　HBase应用场景　127
6.2　HBase开发环境配置　128
6.2.1　HBase配置前的准备工作　128
6.2.2　HBase配置基础知识　128
6.2.3　HBase集群环境配置　130
6.3　HBase Shell　134
6.4　HBase API　139
6.4.1　管理表结构　139
6.4.2　管理表信息　142
6.4.3　信息查询　143
6.5　HBase表设计　145
6.6　本章小结　145
6.7　习题　145

第7章　大数据仓库应用技术　147

7.1　Hive基础知识　148
7.1.1　Hive产生背景　148
7.1.2　Hive体系结构　148
7.1.3　Hive执行流程　150
7.1.4　Hive应用场景　151
7.2　Hive开发环境配置　151
7.2.1　Hive配置基础知识　151
7.2.2　Hive安装模式　151
7.2.3　Hive远程安装模式实战　153
7.3　Hive命令　155
7.3.1　Hive交互命令界面Shell简介　155
7.3.2　Hive非交互界面执行简介　156
7.4　Hive开发基础知识　157
7.4.1　数据类型与文本文件编码　158
7.4.2　数据读取模式　162
7.4.3　Hive关键字　162
7.5　Hive基本操作　163
7.5.1　Hive数据库管理操作　163
7.5.2　Hive表管理操作　164
7.5.3　Hive查询基本语法规则　165
7.5.4　Hive基本查询　165
7.5.5　Hive高级查询　167
7.5.6　Hive JOIN查询　173
7.6　Hive API　175
7.7　本章小结　176
7.8　习题　176

第8章　大数据实时应用技术　177

8.1　Storm基础知识　177
8.1.1　Storm基本概述　178
8.1.2　Storm特征　178
8.1.3　Storm系统结构　179
8.1.4　Storm运行原理　180
8.1.5　Storm应用场景　180
8.2　Storm开发环境安装　181
8.2.1　Storm配置基础知识　181
8.2.2　Storm快速部署　181
8.2.3　Storm集群部署　183
8.3　Storm 编程　185
8.4　Storm实现约车大数据分析　190
8.4.1　模拟生成实时约车数据　191
8.4.2　Flume整合Kafka　192
8.4.3　约车数据采集后基于Storm进行实时处理　195
8.5　本章小结　200
8.6　习题　200