Hadoop大数据开发基础与实战(微课版)

Hadoop大数据开发基础与实战(微课版)案例丰富
分享 推荐 0 收藏 2 阅读 354
千锋教育 (作者) 978-7-115-64345-2

关于本书的内容有任何问题,请联系 李召

(1)内容丰富,结构合理。
(2)讲清原理,版本升级。
(3)融合实例,前沿技术。
本书内容丰富、理论与实践相结合,既可作为高等院校计算机相关专业的教材,也可以作为具有一定的大数据基础的技术爱好者的学习用书。
¥69.80 ¥59.33 (8.5 折)

内容摘要

本书主要讲解了Hadoop大数据开发基础与实战的相关内容,全书共11章,其中第1章为初识Hadoop,第2章为Hadoop集群的搭建,第3章为分布式协调框架ZooKeeper,第4章为分布式文件系统HDFS,第5章分布式计算框架MapReduce,第6章为YARN框架与HA模式,第7章为数据仓库Hive,第8章为分布式存储系统HBase,第9章为数据同步工具Sqoop,第10章为Flume,第11章为综合项目——基于Hadoop的云盘设计与实现,该项目主要巩固了第1~10章学习的Hadoop基础知识。希望通过对本书的学习,读者能够掌握Hadoop分布式计算和存储技术,并根据实际业务需求结合其他组件合理使用Hadoop的存储系统和计算引擎。
本书既可作为高等院校计算机类相关专业的教材,也可作为相关技术爱好者的入门用书。

目录

第1章 初识Hadoop
1.1 大数据概述 1
1.1.1 什么是大数据 1
1.1.2 大数据的特征 2
1.1.3 大数据的发展趋势 3
1.2 大数据的应用 4
1.3 大数据技术简介 6
1.4 Hadoop概述 7
1.4.1 Hadoop简介 8
1.4.2 Hadoop的优缺点 8
1.4.3 Hadoop的产生和发展历程 9
1.4.4 Hadoop的版本介绍 9
1.4.5 Hadoop 3.0的新特性 10
1.4.6 Hadoop生态圈的相关组件 12
1.4.7 国内Hadoop的就业情况分析 12
1.4.8 国内外Hadoop应用案例介绍 13
1.5 实战演练:Web日志数据挖掘系统 14
本章小结 16
习题 17
第2章 Hadoop集群的搭建
2.1 安装准备 18
2.1.1 虚拟机安装 18
2.1.2 虚拟机克隆 26
2.1.3 Linux系统网络配置 27
2.1.4 SSH服务配置 30
2.2 Linux常用命令 32
2.2.1 查看系统、进程和网络信息的命令 32
2.2.2 磁盘操作命令 33
2.2.3 目录与文件操作命令 34
2.2.4 权限操作命令 35
2.3 Hadoop集群的搭建 36
2.3.1 Hadoop集群的部署模式 36
2.3.2 安装JDK 36
2.3.3 安装Hadoop 37
2.3.4 Hadoop集群的配置 37
2.4 Hadoop集群的测试 40
2.4.1 格式化文件系统 41
2.4.2 启动和关闭Hadoop进程命令 41
2.4.3 启动和查看Hadoop进程 42
2.4.4 监控HDFS集群和YARN集群 42
2.5 Hadoop集群的使用 43
本章小结 44
习题 44
第3章 分布式协调框架ZooKeeper
3.1 初识ZooKeeper 45
3.1.1 ZooKeeper简介 45
3.1.2 ZooKeeper的设计目标 46
3.1.3 ZooKeeper工作原理 46
3.2 ZooKeeper的安装和常用命令 47
3.2.1 单机模式下安装与配置ZooKeeper 48
3.2.2 全分布式模式下安装与配置ZooKeeper 49
3.2.3 ZooKeeper客户端的节点和命令 51
3.3 ZooKeeper客户端实战 53
3.4 ZooKeeper典型应用场景 55
3.4.1 数据发布与订阅 55
3.4.2 命名服务 56
3.4.3 分布式锁 56
本章小结 56
习题 57
第4章 分布式文件系统HDFS
4.1 HDFS概述 58
4.2 HDFS的架构 59
4.3 HDFS读/写数据的流程 61
4.4 HDFSShell命令 63
4.5 使用Java程序操作HDFS 65
4.5.1 HDFS Java API概述 65
4.5.2 使用Java API操作HDFS 66
4.6 Hadoop序列化 72
4.6.1 Hadoop序列化简介 72
4.6.2 实现Hadoop序列化的常用类 74
4.6.3 自定义实现Writable接口的类 76
4.7 Hadoop小文件处理 78
4.7.1 压缩小文件 78
4.7.2 创建序列化文件 79
4.8 HDFS的RPC机制 82
4.8.1 RPC机制简介 82
4.8.2 RPC的架构 82
4.9 实战演练:文件词频统计 83
本章小结 85
习题 85
第5章 分布式计算框架MapReduce
5.1 初识MapReduce 87
5.1.1 MapReduce核心思想 87
5.1.2 MapReduce的编程模型 88
5.1.3 实战演练:词频统计 89
5.2 MapReduce作业 94
5.2.1 MapReduce作业概述 94
5.2.2 MapReduce作业运行时的资源调度 94
5.2.3 MapReduce作业的运行流程 95
5.3 MapReduce工作原理 96
5.3.1 Map任务的工作原理 96
5.3.2 Reduce任务的工作原理 96
5.4 MapReduce的Shuffle阶段 97
5.4.1 Shuffle的概念 97
5.4.2 Map端的Shuffle 97
5.4.3 Reduce端的Shuffle 98
5.5 MapReduce编程组件 98
5.5.1 InputFormat组件 98
5.5.2 OutputFormat组件 100
5.5.3 RecordReader组件和RecordWriter组件 103
5.5.4 Partitioner组件 104
5.5.5 Combiner组件 106
5.6 数据倾斜 111
5.7 排序 111
5.7.1 排序概述 111
5.7.2 部分排序 112
5.7.3 全排序 113
5.8 实战演练:倒排索引 117
5.9 实战演练:连接 121
5.10 实战演练:平均分和百分比 124
5.11 实战演练:过滤敏感词汇 128
本章小结 130
习题 130
第6章 YARN框架与HA模式
6.1 YARN框架 132
6.1.1 YARN简介 132
6.1.2 YARN的工作流程 133
6.1.3 YARN的优势 134
6.2 Hadoop的HA模式 134
6.2.1 HA模式简介 134
6.2.2 HDFS的HA模式 135
6.2.3 YARN的HA模式 141
6.2.4 启动和关闭Hadoop的HA模式 145
本章小结 146
习题 146
第7章 数据仓库Hive
7.1 数据仓库简介 147
7.1.1 数据仓库概述 147
7.1.2 数据仓库应用 148
7.1.3 数据仓库特点 149
7.1.4 数据仓库数据模型 149
7.1.5 数据仓库和数据库的区别 150
7.2 初识Hive 151
7.2.1 Hive简介 151
7.2.2 Hive架构 152
7.2.3 Hive特点 153
7.2.4 Hive和关系型数据库的比较 154
7.3 Hive的安装 154
7.4 Hive的数据类型 158
7.4.1 基本数据类型 159
7.4.2 复杂数据类型 159
7.5 Hive的数据库操作 161
7.6 Hive中的表 162
7.6.1 内部表和外部表 162
7.6.2 对表进行分区 168
7.6.3 对表或分区进行桶操作 173
7.7 Hive表的查询 176
7.7.1 select查询语句 177
7.7.2 视图 182
7.7.3 连接 183
7.8 Hive函数 187
7.8.1 Hive内置函数 187
7.8.2 通过JDBC驱动程序使用HiveSever2服务 189
7.8.3 Hive用户自定义函数 191
7.9 Hive性能优化 193
7.10 实战演练:机顶盒数据分析 195
本章小结 196
习题 196
第8章 分布式存储系统HBase
8.1 初识HBase 197
8.1.1 HBase简介 197
8.1.2 HBase的数据模型 198
8.1.3 HBase架构 199
8.1.4 HBase文件存储格式 200
8.1.5 HBase存储过程 201
8.1.6 HBase和HDFS 202
8.2 HBase表设计 203
8.2.1 行键设计 203
8.2.2 列簇设计 204
8.3 HBase安装和部署 204
8.3.1 完全分布式模式 204
8.3.2 HA模式 207
8.4 HBase Shell的常用操作命令 209
8.4.1 常规命令 209
8.4.2 常用的命名空间相关命令 210
8.4.3 常用的DDL命令 211
8.4.4 常用的DML命令 213
8.5 HBase编程 215
8.5.1 配置开发环境 216
8.5.2 使用Java API操作HBase 216
8.5.3 使用HBase实现WordCount 220
8.6 HBase的过滤器和比较器 223
8.6.1 过滤器 223
8.6.2 比较器 224
8.6.3 编程实操 224
8.7 HBase和Hive的结合使用 230
8.7.1 HBase与Hive结合使用的原因 230
8.7.2 Hive关联HBase 230
8.8 HBase的性能优化 232
本章小结 233
习题 234
第9章 数据同步工具Sqoop
9.1 初识Sqoop 235
9.1.1 Sqoop简介 235
9.1.2 Sqoop架构 236
9.1.3 Sqoop的工作原理 236
9.2 Sqoop安装 238
9.3 Sqoop的命令与参数 240
9.3.1 Sqoop的常用命令 240
9.3.2 常用命令的参数 240
9.3.3 Sqoop命令的基本操作 241
9.4 Sqoop数据导入 243
9.4.1 将MySQL中的数据导入HDFS 243
9.4.2 将MySQL中的数据导入Hive 244
9.4.3 将MySQL中的数据导入HBase 247
9.4.4 增量导入 248
9.4.5 按需导入 250
9.5 Sqoop数据导出 251
9.5.1 将HDFS中的数据导出到MySQL 251
9.5.2 将Hive中的数据导出到MySQL 252
9.5.3 将HBase中的数据导出到MySQL 253
9.6 Sqoop Job 254
本章小结 255
习题 255
第10章 Flume
10.1 初识Flume 257
10.1.1 Flume简介 257
10.1.2 Flume的特点 258
10.2 Flume的核心概念 258
10.2.1 Event 258
10.2.2 Agent 259
10.3 Flume安装 260
10.4 Flume数据流模型 261
10.5 Flume的可靠性保证 263
10.5.1 负载均衡 263
10.5.2 故障转移 265
10.6 Flume拦截器 266
10.7 采集案例 268
10.7.1 将目录采集到HDFS中 269
10.7.2 将文件采集到HDFS中 270
本章小结 271
习题 271
第11章 综合项目——基于Hadoop的云盘设计与实现
 11.1 项目概述 272
11.1.1 项目简介 272
11.1.2 开发环境 273
11.1.3 项目架构设计 273
11.2 云盘页面效果展示 274
11.2.1 云盘主页 274
11.2.2 “新增目录”对话框 275
11.2.3 “上传文件”对话框 275
11.2.4 操作文件的下拉菜单 276
11.2.5 “重命名”对话框 277
11.2.6 文件管理的下拉菜单 277
11.3 创建云盘项目并配置环境 278
11.4 实现云盘页面效果 280
11.5 前后端交互 281
11.6 实现云盘页面功能 286
11.6.1 获取文件和子目录列表 286
11.6.2 新增目录 287
11.6.3 上传文件 288
11.6.4 下载文件 289
11.6.5 重命名文件 289
11.6.6 删除文件 290
11.6.7 检索文件 291
本章小结 292

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

1.千锋教育采用全程面授高品质、高成本培养模式,教学大纲紧跟企业需求,拥有全国一体化就业保障服务,成为学员信赖的IT职业教育品牌。 2.获得荣誉包括:中关村移动互联网产业联盟副理事长单位、中国软件协会教育培训委员会认证一级培训机构、中关村国际孵化软件协会授权中关村移动互联网学院、教育部教育管理信息中心指定移动互联网实训基地等。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部