大数据技术原理与应用 ——概念、存储、处理、 分析与应用(第4版 高职版)

大数据技术
分享 推荐 0 收藏 4 阅读 632
林子雨 (作者) 978-7-115-66307-8

关于本书的内容有任何问题,请联系 孙澍

【内容特点】
(1)“十四五”职业教育国家级规划教材
(2)全面贴合高职院校教学需求进行改版
(3)理论内容全面、简洁,结构合理,习题和实验丰富。
(3)轻理论、重实操,各章包含丰富案例、实践及实验内容。
【资源特点】重点难点知识微课,配套PPT、程序源代码、习题答案等。
【服务特点】作者提供QQ服务群等支持,定期举办直播进行教学培训。
¥59.80 ¥50.83 (8.5 折)

内容摘要

本书系统地介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共13章,内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、大数据分析综合案例、大数据应用。本书在大数据处理框架Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、MapReduce、数据仓库Hive、Spark和Flink等章安排有入门级的实验,以便读者能更好地学习和掌握大数据的关键技术。
本书可作为高等院校大数据技术、计算机类、信息管理相关专业的大数据技术原理与应用课程教材,也可作为相关技术人员的参考书。

目录

第一篇 大数据基础

第1章 大数据概述 1
1.1 大数据时代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技为大数据时代提供技术支撑 3
1.1.3 数据产生方式的变革促成大数据时代的来临 4
1.1.4 大数据的发展历程 5
1.2 大数据的概念 6
1.2.1 数据量大 6
1.2.2 数据类型多 7
1.2.3 处理速度快 8
1.2.4 价值密度低 8
1.3 大数据的影响 9
1.3.1 大数据对科学研究的影响 9
1.3.2 大数据对思维方式的影响 10
1.3.3 大数据对就业市场的影响 11
1.4 大数据的应用 12
1.4.1 大数据在各个领域的应用 12
1.4.2 大数据应用的3个层次 13
1.5 大数据关键技术 14
1.6 大数据计算模式 15
1.6.1 批处理计算 15
1.6.2 流计算 15
1.6.3 图计算 16
1.6.4 查询分析计算 16
1.7 大数据产业 16
1.8 大数据与云计算、物联网、人工智能 18
1.8.1 云计算 18
1.8.2 物联网 22
1.8.3 人工智能 26
1.8.4 大数据与云计算、物联网的关系 31
1.8.5 大数据与人工智能的关系 32
1.9 本章小结 33
1.10 习题 34

第2章 大数据处理架构Hadoop 35
2.1 Hadoop概述 35
2.1.1 Hadoop简介 35
2.1.2 Hadoop的发展简史 35
2.1.3 Hadoop的特性 36
2.2 Hadoop生态系统 36
2.3 Linux系统的安装与使用 38
2.4 安装Hadoop前的准备工作 39
2.4.1 创建hadoop用户 39
2.4.2 更新APT 40
2.4.3 安装SSH 40
2.4.4 安装Java环境 41
2.5 Hadoop的安装 42
2.5.1 下载安装文件 42
2.5.2 配置单机模式 43
2.5.3 配置伪分布式模式 43
2.6 本章小结 47
2.7 习题 47
实验1 熟悉常用的Linux操作和Hadoop操作 48

第二篇 大数据存储与管理

第3章 分布式文件系统HDFS 52
3.1 HDFS简介 52
3.2 HDFS的相关概念 53
3.2.1 块 53
3.2.2 名称节点和数据节点 54
3.2.3 第二名称节点 55
3.3 HDFS体系结构 56
3.4 HDFS操作常用Shell命令 57
3.4.1 查看命令使用方法 57
3.4.2 HDFS目录操作 57
3.5 HDFS的Web管理界面 59
3.6 HDFS编程实践 59
3.6.1 常用Java API简介 60
3.6.2 编程实例 60
3.7 本章小结 62
3.8 习题 62
实验2 熟悉常用的HDFS操作 63

第4章 分布式数据库HBase 65
4.1 HBase概述 65
4.1.1 HBase简介 65
4.1.2 HBase与传统关系数据库的对比分析 66
4.2 HBase数据模型 67
4.2.1 数据模型概述 67
4.2.2 数据模型的相关概念 67
4.2.3 数据模型实例 69
4.3 HBase系统架构 69
4.4 HBase的安装 71
4.4.1 下载安装文件 71
4.4.2 配置环境变量 71
4.4.3 添加用户权限 71
4.4.4 查看HBase版本信息 72
4.5 HBase的配置 72
4.5.1 配置单机模式 72
4.5.2 配置伪分布式模式 73
4.6 HBase常用Shell命令 75
4.6.1 在HBase中创建表 76
4.6.2 添加数据 76
4.6.3 查看数据 76
4.6.4 删除数据 77
4.6.5 删除表 78
4.6.6 查询历史数据 78
4.6.7 退出HBase数据库 79
4.7 HBase编程实践 79
4.7.1 HBase常用Java API 79
4.7.2 HBase编程实例 83
4.8 本章小结 89
4.9 习题 89
实验3 熟悉常用的HBase操作 89

第5章 NoSQL数据库 92
5.1 NoSQL数据库简介 92
5.2 NoSQL数据库兴起的原因 93
5.2.1 关系数据库无法满足Web 2.0的需求 93
5.2.2 关系数据库的关键特性在Web 2.0时代成为“鸡肋” 94
5.3 NoSQL数据库与关系数据库的比较 95
5.4 NoSQL数据库的四大类型 97
5.4.1 键值数据库 97
5.4.2 列族数据库 98
5.4.3 文档数据库 98
5.4.4 图数据库 99
5.5 键值数据库Redis的安装和使用 99
5.5.1 Redis简介 100
5.5.2 安装Redis 100
5.5.3 Redis实例演示 101
5.5.4 使用Java操作Redis 103
5.6 文档数据库MongoDB的安装和使用 104
5.6.1 MongoDB简介 104
5.6.2 安装MongoDB 104
5.6.3 使用Shell命令操作MongoDB 106
5.6.4 Java API编程实例 108
5.7 本章小结 111
5.8 习题 111
实验4 NoSQL数据库和关系数据库的操作比较 111

第三篇 大数据处理与分析

第6章 MapReduce 116
6.1 MapReduce概述 116
6.1.1 分布式并行编程 116
6.1.2 MapReduce模型简介 117
6.1.3 Map和Reduce函数 117
6.2 MapReduce的工作流程 118
6.2.1 工作流程概述 118
6.2.2 MapReduce的各个执行阶段 119
6.2.3 Shuffle过程详解 120
6.3 实例分析:WordCount 123
6.3.1 WordCount程序的任务 123
6.3.2 WordCount的设计思路 123
6.3.3 一个WordCount执行过程的实例 124
6.4 MapReduce编程实践 125
6.4.1 编写Map处理逻辑 126
6.4.2 编写Reduce处理逻辑 127
6.4.3 编写main函数 128
6.4.4 编译打包代码以及运行程序 128
6.5 本章小结 131
6.6 习题 131
实验5 MapReduce初级编程实践 132

第7章 Hadoop再探讨 135
7.1 Hadoop的优化与发展 135
7.2 HDFS HA 136
7.3 新一代资源管理调度框架YARN 137
7.3.1 MapReduce 1.0的缺陷 137
7.3.2 YARN设计思路 138
7.3.3 YARN框架与MapReduce 1.0框架的对比分析 139
7.3.4 YARN的发展目标 140
7.4 本章小结 141
7.5 习题 141

第8章 数据仓库Hive 142
8.1 数据仓库的概念 142
8.2 数据湖 144
8.2.1 数据湖的概念 144
8.2.2 数据湖与数据仓库的区别 145
8.2.3 数据湖能解决的企业问题 145
8.3 湖仓一体 146
8.4 数据仓库Hive概述 147
8.4.1 传统数据仓库面临的挑战 148
8.4.2 Hive简介 148
8.4.3 Hive与Hadoop生态系统中其他组件的关系 148
8.4.4 Hive与传统数据库的对比分析 149
8.4.5 Hive在企业中的部署和应用 150
8.5 Hive系统架构 151
8.6 Hive的安装 151
8.6.1 下载安装文件 151
8.6.2 配置环境变量 152
8.6.3 修改配置文件 152
8.6.4 安装并配置MySQL 153
8.7 Hive基本操作 156
8.7.1 create:创建数据库、表、视图 156
8.7.2 drop:删除数据库、表、视图 157
8.7.3 alter:修改数据库、表、视图 157
8.7.4 show:查看数据库、表、视图 158
8.7.5 describe:描述数据库、表、视图 159
8.7.6 load:向表中装载数据 159
8.7.7 select:查询表中数据 159
8.7.8 insert:向表中插入数据 159
8.8 Hive应用实例:WordCount 160
8.9 Hive编程的优势 160
8.10 本章小结 161
8.11 习题 161
实验6 熟悉Hive的基本操作 161

第9章 Spark 164
9.1 Spark概述 164
9.1.1 Spark简介 164
9.1.2 Scala简介 165
9.1.3 Spark与Hadoop的对比 165
9.2 Spark生态系统 167
9.3 Spark运行架构 169
9.4 Spark的部署和应用方式 169
9.4.1 Spark的部署模式 169
9.4.2 Spark架构对流处理和批处理的支持 170
9.4.3 Hadoop和Spark的统一部署 171
9.5 Spark的安装和使用 171
9.5.1 下载安装文件 172
9.5.2 配置相关文件 172
9.5.3 启动Spark Shell 173
9.6 Spark编程实践 174
9.6.1 RDD基本操作 174
9.6.2 Spark应用程序 179
9.7 综合实例 183
9.7.1 求TOP值 183
9.7.2 文件排序 185
9.7.3 二次排序 186
9.8 本章小结 187
9.9 习题 188
实验7 Spark初级编程实践 188

第10章 流计算 191
10.1 流计算概述 191
10.1.1 静态数据和流数据 191
10.1.2 批量计算和实时计算 192
10.1.3 流计算的概念 192
10.1.4 流计算与Hadoop 193
10.1.5 流计算框架与平台 194
10.2 流计算的处理流程 194
10.2.1 概述 194
10.2.2 数据实时采集 195
10.2.3 数据实时计算 195
10.2.4 实时查询服务 195
10.3 流计算的应用 196
10.3.1 应用场景1:实时分析 196
10.3.2 应用场景2:实时交通 197
10.4 Storm 197
10.5 Spark Streaming 198
10.6 Structured Streaming 199
10.6.1 Structured Streaming简介 199
10.6.2 Structured Streaming的关键思想 199
10.7 Flink 200
10.8 本章小结 200
10.9 习题 201

第11章 Flink 202
11.1 Flink简介 202
11.2 为什么选择Flink 202
11.3 Flink技术栈 204
11.4 Flink编程模型 205
11.5 Flink编程实践 205
11.5.1 安装Flink 205
11.5.2 编写WordCount程序 207
11.6 本章小结 211
11.7 习题 212
实验8 Flink初级编程实践 212

第12章 大数据分析综合案例 214
12.1 案例简介 214
12.1.1 案例目的 214
12.1.2 硬件要求 214
12.1.3 软件工具 214
12.1.4 数据集 215
12.1.5 案例任务 215
12.2 实验环境搭建 215
12.3 实验步骤概述 216
12.4 将本地数据集上传到数据仓库Hive中 217
12.4.1 实验数据集的下载 217
12.4.2 数据集的预处理 218
12.4.3 数据库的导入 220
12.5 利用Hive进行数据分析 222
12.5.1 简单查询分析 222
12.5.2 查询条数统计分析 223
12.5.3 关键字条件查询分析 223
12.5.4 根据用户行为分析 224
12.5.5 用户实时查询分析 225
12.6 Hive、MySQL、HBase数据互导 225
12.6.1 Hive预操作 225
12.6.2 使用Java API将数据从Hive导入
MySQL中 226
12.6.3 使用HBase Java API把数据从本地导入HBase中 230
12.7 利用Matplotlib进行数据可视化分析 234
12.7.1 安装Matplotlib依赖库 234
12.7.2 可视化分析 235
12.8 本章小结 243


第四篇 大数据应用

第13章 大数据应用 245
13.1 大数据在互联网领域的应用 245
13.2 大数据在生物医学领域的应用 246
13.2.1 流行病预测 246
13.2.2 智慧医疗 247
13.2.3 生物信息学 248
13.3 大数据在物流领域的应用 248
13.3.1 智能物流的概念 248
13.3.2 大数据是智能物流的关键 249
13.3.3 中国智能物流骨干网——菜鸟 249
13.4 大数据在城市管理领域的应用 250
13.4.1 智能交通 250
13.4.2 环保监测 251
13.4.3 城市规划 252
13.4.4 安防 252
13.5 大数据在金融领域的应用 253
13.5.1 高频交易 253
13.5.2 市场情绪分析 253
13.5.3 信贷风险分析 253
13.5.4 大数据征信 254
13.6 大数据在汽车领域的应用 255
13.7 大数据在零售领域的应用 255
13.7.1 发现关联购买行为 255
13.7.2 客户群体细分 256
13.7.3 供应链管理 257
13.8 大数据在餐饮领域的应用 257
13.8.1 餐饮领域拥抱大数据 257
13.8.2 餐饮O2O 258
13.9 大数据在电信领域的应用 259
13.10 大数据在能源领域的应用 259
13.11 大数据在体育娱乐领域的应用 260
13.11.1 训练球队 260
13.11.2 投拍影视作品 261
13.11.3 预测比赛结果 261
13.12 大数据在安全领域的应用 261
13.12.1 大数据与国家安全 262
13.12.2 大数据与防御网络攻击 262
13.12.3 大数据与预防犯罪 263
13.13 大数据在日常生活中的应用 263
13.14 本章小结 265
13.15 习题 265
参考文献 266

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

林子雨,男,博士,国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版12本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2300万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部