大数据应用技术

概念+原理+技术+应用
分享 推荐 0 收藏 16 阅读 1.5K
华育兴业 (著)

关于本书的内容有任何问题,请联系 李召

(1)理论+案例的编写风格:以简练的语言进行理论知识的讲解,配上丰富而实用的案例,并且书中多用“图”来讲解说明知识点,更有效地帮助读者理解。
(2)充分考虑学生学习之便利:考虑到当今大学生的实际情况,教材所选的实例贴近读者的理解水平,术语引入节奏合理,不会让读者产生晦涩的感觉,其个别难点,尽量讲解详尽与清晰。
¥49.80 ¥42.33 (8.5 折)

内容摘要

本书主要结合当前流行的大数据框架Hadoop、HBase、Hive、、Storm、Flume、Kafka、Spark、Spark GraphX,采用案例形式系统地讲解大数据应用技术的相关知识。全书共有8章,分别介绍了大数据概论、大数据基础知识、大数据文件存储系统、大数据文件存储系统、大数据计算技术、大数据应用程序协调服务、大数据存储应用技术、大数据仓库应用技术、大数据实时应用技术。为了让读者能够及时地检验自己的学习效果,把握自己的学习进度,各章后面都附有相应的习题。

目录

第1章 大数据概论 1
1.1 数据的基本概念 1
1.1.1 什么是数据 1
1.1.2 数据组成结构 2
1.1.3 数据的价值 4
1.2 什么是大数据 4
1.2.1 大数据产生背景 4
1.2.2 大数据发展的原动力 5
1.2.3 大数据基本概念与特征 6
1.2.4 大数据与云计算 6
1.2.5 大数据与人工智能 7
1.3 大数据主要技术 8
1.3.1 概述 8
1.3.2 大数据采集与处理 9
1.3.3 大数据存储技术 9
1.3.4 大数据计算技术 11
1.3.5 大数据可视化 12
1.3.6 大数据安全 12
1.4 大数据主流框架 14
1.4.1 Hadoop 14
1.4.2 ZooKeeper 14
1.4.3 HBase 14
1.4.4 Hive 14
1.4.5 Storm 15
1.4.6 Flume 15
1.4.7 Kafka 15
1.5 本章小结 15
1.6 习题 16


第2章 大数据基础知识 17

2.1 概述 17
2.1.1 Hadoop产生背景 17
2.1.2 Hadoop核心模块 18
2.1.3 Hadoop相关项目 19
2.2 Common 20
2.3 HDFS 20
2.3.1 HDFS设计思想 20
2.3.2 HDFS体系结构 21
2.3.3 文件系统命名空间 22
2.3.4 数据复制 22
2.3.5 副本放置策略 23
2.3.6 副本选择 23
2.3.7 安全模式 23
2.3.8 元数据的持久性 24
2.3.9 通信协议 24
2.3.10 健壮性 24
2.4 YARN 25
2.5 MapReduce 27
2.6 Hadoop应用场景 29
2.7 Hadoop环境配置 29
2.7.1 Hadoop配置基础知识 29
2.7.2 Hadoop安装模式 29
2.7.3 Hadoop版本选择 30
2.7.4 Hadoop伪分布模式搭建 31
2.8 基于Hadoop平台的IDEA开发环境搭建 36
2.8.1 Maven项目的创建 36
2.8.2 编写经典的MapReduce
程序WordCount 38
2.9 本章小结 46
2.10 习题 46


第3章 大数据文件存储系统 48

3.1 数据块 48
3.2 HDFS工作流 49
3.2.1 HDFS写数据过程 49
3.2.2 HDFS读数据过程 50
3.3 HDFS应用程序设计 51
3.3.1 HDFS Shell命令 51
3.3.2 Web接口 53
3.3.3 HDFS API 55
3.3.4 HDFS API写操作 57
3.3.5 HDFS API读操作 59
3.4 HDFS存储格式 60
3.5 Hadoop I/O 61
3.5.1 压缩 61
3.5.2 I/O序列化类型 64
3.6 本章小结 67
3.7 习题 67


第4章 大数据计算技术 68

4.1 MapReduce运行过程 68
4.2 MapReduce编程过程 70
4.3 MapReduce数据类型 72
4.4 Mapper输入 73
4.5 Shuffle原理 76
4.5.1 Shuffle工作原理 76
4.5.2 自定义分区 79
4.5.3 自定义排序 81
4.5.4 自定义分组 82
4.6 Combiner本地合并优化 83
4.7 Reducer输出 84
4.8 计数器 89
4.9 MapReduce应用开发 91
4.9.1 最大最小计数值 92
4.9.2 全排序 94
4.9.3 二次排序 97
4.10 本章小结 102
4.11 习题 102


第5章 大数据应用程序协调服务 103

5.1 ZooKeeper概述 103
5.1.1 ZooKeeper简介 103
5.1.2 ZooKeeper常用术语 104
5.1.3 ZooKeeper设计目标 104
5.1.4 数据模型和分层命名空间 105
5.1.5 ZooKeeper工作原理 106
5.2 ZooKeeper集群搭建 107
5.2.1 集群规划 107
5.2.2 ZooKeeper集群安装 107
5.3 ZooKeeper与Hadoop高可用性 110
5.4 Hadoop高可用性集群部署 111
5.4.1 集群规划 111
5.4.2 集群部署 112
5.5 本章小结 122
5.6 习题 122


第6章 大数据存储应用技术 123

6.1 HBase 基础知识 123
6.1.1 HBase产生背景 123
6.1.2 HBase数据模型 124
6.1.3 HBase体系结构 125
6.1.4 HBase与HDFS 127
6.1.5 HBase应用场景 127
6.2 HBase开发环境配置 128
6.2.1 HBase配置前的准备工作 128
6.2.2 HBase配置基础知识 128
6.2.3 HBase集群环境配置 130
6.3 HBase Shell 134
6.4 HBase API 139
6.4.1 管理表结构 139
6.4.2 管理表信息 142
6.4.3 信息查询 143
6.5 HBase表设计 145
6.6 本章小结 145
6.7 习题 145


第7章 大数据仓库应用技术 147

7.1 Hive基础知识 148
7.1.1 Hive产生背景 148
7.1.2 Hive体系结构 148
7.1.3 Hive执行流程 150
7.1.4 Hive应用场景 151
7.2 Hive开发环境配置 151
7.2.1 Hive配置基础知识 151
7.2.2 Hive安装模式 151
7.2.3 Hive远程安装模式实战 153
7.3 Hive命令 155
7.3.1 Hive交互命令界面Shell简介 155
7.3.2 Hive非交互界面执行简介 156
7.4 Hive开发基础知识 157
7.4.1 数据类型与文本文件编码 158
7.4.2 数据读取模式 162
7.4.3 Hive关键字 162
7.5 Hive基本操作 163
7.5.1 Hive数据库管理操作 163
7.5.2 Hive表管理操作 164
7.5.3 Hive查询基本语法规则 165
7.5.4 Hive基本查询 165
7.5.5 Hive高级查询 167
7.5.6 Hive JOIN查询 173
7.6 Hive API 175
7.7 本章小结 176
7.8 习题 176


第8章 大数据实时应用技术 177

8.1 Storm基础知识 177
8.1.1 Storm基本概述 178
8.1.2 Storm特征 178
8.1.3 Storm系统结构 179
8.1.4 Storm运行原理 180
8.1.5 Storm应用场景 180
8.2 Storm开发环境安装 181
8.2.1 Storm配置基础知识 181
8.2.2 Storm快速部署 181
8.2.3 Storm集群部署 183
8.3 Storm 编程 185
8.4 Storm实现约车大数据分析 190
8.4.1 模拟生成实时约车数据 191
8.4.2 Flume整合Kafka 192
8.4.3 约车数据采集后基于Storm进行实时处理 195
8.5 本章小结 200
8.6 习题 200

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

王国珺,副教授,从事高校计算机教育近20年,主要研究方向为大数据、机器学习,近期主持省级课题1项,厅级课题1项,参与省级课题1项,公开发表国家级论文5篇。

相关图书

人邮微信
本地服务
人邮微信
教师服务
微信二维码
读者服务
读者服务
返回顶部
返回顶部