大数据技术

本书为HCIA-Big Data 认证指定教材
分享 推荐 9 收藏 183 阅读 6.6K
华为公司 (作者) 978-7-115-55607-3

关于本书的内容有任何问题,请联系 孙澍

本书以华为ICT大数据技术培训认证考试的考试大纲为主线,在涵盖华为ICT大数据技术培训认证考试相关内容的同时,在部分章节增加了实操案例,并强化了ZooKeeper、Kafka、Flink、Redis等的相关介绍,特别是在高可靠集群安全模式、华为大数据解决方案以及华为自身大数据组件等方面的讲解具有鲜明的特点。
【定价:59.80元】

特别说明

华为 ICT 学院指定教材!
注: 华为 ICT 学院是华为公司主导的、面向全球的校企合作项目。华为 ICT 学院面向全球在校大学生传递华为 ICT 相关知识,鼓励学生考取华为技术认证,在全球范围内为社会及 ICT 产业链培养创新型和应用型技术人才。

内容摘要

本书系统、全面地介绍大数据技术的基础知识。全书共13章,首先介绍大数据行业与技术趋势;然后介绍大数据生态圈的各项技术,包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kafka分布式消息订阅系统、高可靠集群安全模式、分布式全文检索Elasticsearch、Redis内存数据库等;最后介绍华为大数据解决方案。通过学习本书所讲内容,读者可以整体了解大数据技术,掌握大数据生态圈中各项技术最为基础和关键的知识。
本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材,也可供大数据工程技术人员学习或参考使用,还可作为华为HCIA认证考试的培训教材。

目录

第1章 大数据行业与技术趋势 1
1.1 大数据时代 1
1.1.1 大数据的定义 1
1.1.2 大数据分析与传统数据分析 2
1.1.3 大数据时代已经到来 7
1.2 大数据应用领域 8
1.3 大数据时代企业所面临的挑战和机遇 9
1.3.1 大数据时代企业所面临的挑战 9
1.3.2 大数据时代企业所面临的机遇 10
1.4 大数据代表技术和解决方案 11
1.4.1 大数据代表技术 11
1.4.2 大数据解决方案 16
1.5 本章小结 17
1.6 习题 17

第2章 分布式文件系统 18
2.1 文件系统概述 18
2.2 HDFS架构 20
2.2.1 HDFS体系结构 21
2.2.2 HDFS中的数据流 23
2.3 HDFS关键特性 26
2.3.1 HDFS高可用性 26
2.3.2 HDFS元数据持久化 28
2.3.3 HDFS联邦 28
2.3.4 HDFS视图文件系统 29
2.3.5 HDFS机架感知策略 30
2.3.6 HDFS集中式缓存管理 31
2.3.7 配置HDFS数据存储策略 32
2.3.8 HDFS同分布 33
2.4 HDFS操作 34
2.4.1 使用命令行访问HDFS 34
2.4.2 使用Java API访问HDFS 36
2.5 ZooKeeper 40
2.5.1 ZooKeeper体系结构 40
2.5.2 ZooKeeper读/写机制 41
2.5.3 ZooKeeper关键特性 42
2.5.4 ZooKeeper命令行操作 42
2.6 本章小结 42
2.7 习题 43

第3章 Hive分布式数据仓库 44
3.1 数据仓库 44
3.1.1 数据仓库的定义 44
3.1.2 数据仓库和数据库的区别 44
3.1.3 数据仓库的系统结构 45
3.2 Hive概述和体系结构 46
3.2.1 Hive概述 46
3.2.2 Hive的体系结构 46
3.2.3 Hive与传统数据仓库 48
3.2.4 Hive数据存储模型 49
3.3 Hive基本操作 50
3.3.1 Hive数据基本操作 50
3.3.2 用户自定义函数 57
3.3.3 Hive数据压缩与文件存储格式 58
3.4 Hive增强特性 60
3.4.1 支持HDFS同分布 60
3.4.2 支持列加密功能 61
3.4.3 支持HBase删除功能 61
3.4.4 指定行分隔符 61
3.4.5 其他增强特性 62
3.5 本章小结 62
3.6 习题 63

第4章 HBase技术原理 64
4.1 NoSQL数据库 64
4.2 HBase概述与基本架构 66
4.2.1 HBase概述 66
4.2.2 HBase数据模型 67
4.2.3 HBase架构 68
4.2.4 HBase关键流程 70
4.3 HBase基本操作 75
4.3.1 HBase性能优化 75
4.3.2 HBase常用操作 77
4.3.3 HBase Java API操作 79
4.4 HBase增强特性 82
4.4.1 支持二级索引 82
4.4.2 二级索引行键去除padding 83
4.4.3 支持多点分割 83
4.4.4 容灾增强 83
4.4.5 HBase MOB 84
4.4.6 HFS 84
4.5 本章小结 85
4.6 习题 85

第5章 MapReduce和YARN技术原理 86
5.1 MapReduce和YARN基本介绍 86
5.1.1 MapReduce基本介绍 86
5.1.2 YARN基本介绍 87
5.2 MapReduce和YARN的功能与架构 87
5.2.1 MapReduce过程详解 87
5.2.2 经典MapReduce任务调度模型 89
5.2.3 YARN的组件架构 90
5.2.4 MapReduce On YARN 91
5.2.5 YARN 容错机制 92
5.3 YARN的资源隔离和调度 92
5.3.1 YARN资源隔离 92
5.3.2 YARN资源调度 94
5.3.3 抢占与延时调度 97
5.3.4 YARN参数配置 98
5.4 MapReduce和YARN增强特性 103
5.4.1 任务优先级调度 103
5.4.2 提交Application可设置超时参数 104
5.4.3 YARN的权限控制 104
5.4.4 支持CPU硬隔离 105
5.4.5 重启性能优化 105
5.5 MapReduce实例 106
5.5.1 Top10视频分析 106
5.5.2 视频类别统计 108
5.6 本章小结 109
5.7 习题 109

第6章 Spark基于内存的分布式计算 110
6.1 Spark简介 110
6.1.1 Spark概念 110
6.1.2 Spark架构 111
6.1.3 Spark核心组件 112
6.2 Spark编程模型 114
6.2.1 核心数据结构RDD 114
6.2.2 RDD上的操作 114
6.2.3 RDD的持久化 115
6.2.4 RDD计算工作流 115
6.3 Spark调度机制 116
6.3.1 Spark应用执行流程 116
6.3.2 Spark调度与任务分配 117
6.4 Spark生态圈其他技术 120
6.4.1 Spark SQL 120
6.4.2 Spark Streaming 123
6.5 Spark应用案例 127
6.5.1 Spark Shell 127
6.5.2 WordCount 129
6.6 本章小结 130
6.7 习题 130

第7章 Flink流批一体分布式实时处理引擎 131
7.1 Flink概述 131
7.1.1 Flink的特点 131
7.1.2 Flink的应用场景 133
7.2 Flink原理和架构 133
7.2.1 Flink主要组件 133
7.2.2 Flink的插槽和并行度 134
7.3 Flink部署 136
7.3.1 Standalone部署 137
7.3.2 Flink on YARN部署 139
7.4 Flink时间处理 141
7.4.1 时间语义 141
7.4.2 窗口 142
7.4.3 Watermark 144
7.4.4 延迟处理 145
7.5 Flink的容错机制 146
7.5.1 常用State 146
7.5.2 Checkpoint 148
7.5.3 State Backend 150
7.6 Flink应用案例 152
7.7 本章小结 153
7.8 习题 153

第8章 数据采集与数据装载工具 154
8.1 Flume简介及结构 154
8.1.1 Flume定义 154
8.1.2 Flume组成架构 155
8.1.3 Flume拓扑结构 158
8.2 Flume关键特性 160
8.2.1 Source 160
8.2.2 Sink 163
8.2.3 Channel、拦截器与处理器 165
8.3 Flume的安装与配置 166
8.4 数据装载工具Loader 168
8.4.1 Loader简介 168
8.4.2 Loader模块架构 169
8.4.3 Loader作业管理 170
8.4.4 监控作业执行状态 172
8.5 本章小结 173
8.6 习题 173

第9章 Kafka分布式消息订阅系统 175
9.1 Kafka简介 175
9.1.1 Kafka概念 175
9.1.2 Kafka结构 175
9.1.3 Kafka消息传递模式 176
9.1.4 Kafka特点 176
9.2 Kafka组成 178
9.2.1 Kafka组成的概念 178
9.2.2 Kafka组成的功能 179
9.3 Kafka关键流程及数据管理 181
9.3.1 Kafka生产过程分析 181
9.3.2 Broker保存消息 182
9.3.3 Kafka消费过程分析 183
9.3.4 Kafka高可用 184
9.3.5 旧数据处理方式 184
9.4 Kafka应用案例 185
消息队列的应用场景 185
9.5 本章小结 189
9.6 习题 189

第10章 高可靠集群安全模式 190
10.1 统一身份认证管理 190
10.1.1 统一身份认证 190
10.1.2 统一用户管理系统 191
10.2 目录服务和轻型目录访问协议 192
10.2.1 目录服务 192
10.2.2 轻型目录访问协议 193
10.2.3 LdapServer 194
10.2.4 LdapServer集成设计 198
10.2.5 LdapServer应用优势 198
10.3 单点登录及Kerberos基本原理 199
10.3.1 单点登录 199
10.3.2 KrbServer 201
10.3.3 KrbServer认证流程 202
10.4 华为大数据安全认证场景架构 204
10.4.1 安全认证场景架构 204
10.4.2 Kerberos与LdapServer的业务交互 205
10.4.3 常用配置项及命令 206
10.4.4 集群内服务认证 207
10.5 本章小结 207
10.6 习题 208

第11章 分布式全文检索Elasticsearch 209
11.1 Elasticsearch简介 209
11.1.1 Elasticsearch特点 209
11.1.2 Elasticsearch应用场景 210
11.1.3 Elasticsearch在大数据解决方案中的位置 210
11.2 Elasticsearch架构 211
11.2.1 Elasticsearch核心概念 211
11.2.2 Elasticsearch集群架构 213
11.2.3 Elasticsearch内部架构 213
11.3 Elasticsearch关键特性 215
11.3.1 倒排序索引 215
11.3.2 路由算法 216
11.3.3 平衡算法 217
11.3.4 扩容策略 218
11.3.5 减容策略 218
11.3.6 索引HBase数据 219
11.3.7 单机多实例部署 219
11.3.8 分片自动跨节点分配策略 220
11.4 本章小结 221
11.5 习题 222

第12章 Redis内存数据库 223
12.1 Redis简介 223
12.2 Redis架构 225
12.2.1 Redis架构概述 225
12.2.2 Redis架构设计 225
12.2.3 单线程架构 225
12.2.4 集群环境读/写流程分析 226
12.3 Redis数据类型及操作命令 227
12.3.1 字符串类型 228
12.3.2 列表类型 229
12.3.3 集合类型 231
12.3.4 散列表类型 232
12.3.5 有序集合类型 233
12.4 Redis的持久化 234
12.4.1 RDB持久化 234
12.4.2 AOF持久化 236
12.5 Redis优化 238
12.6 本章小结 239
12.7 习题 239

第13章 华为大数据解决方案 240
13.1 ICT行业发展趋势概述 240
13.1.1 概述 240
13.1.2 华为云Stack解决方案 241
13.1.3 华为云Stack功能架构 242
13.1.4 数字平台场景化解决方案 243
13.1.5 华为云大数据服务 244
13.2 华为大数据服务 245
13.2.1 MRS 245
13.2.2 数据仓库服务 246
13.2.3 云搜索服务 248
13.2.4 图引擎服务 248
13.3 华为智能数据湖运营平台 249
13.3.1 华为云智能数据湖 249
13.3.2 智能数据湖运营平台DAYU 250
13.3.3 数据湖治理 251
13.4 本章小结 252
13.5 习题 252

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

华为技术有限公司:
华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,我们致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。
华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。

购买本书用户

相关图书

人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部