大数据技术与应用

一本带您全面了解大数据技术的入门教材
分享 推荐 0 收藏 9 阅读 1.2K
孔华锋 (作者) 978-7-115-65158-7

关于本书的内容有任何问题,请联系 人邮韦雅雪

(1)系统化理论建设,理论讲解与动手实践相结合。
(2)适配大数据处理主流技术,提供大量实践案例。
(3)注重教学资源建设,常规教学资源及微课同步建设。

内容摘要

本书循序渐进地介绍大数据全生命周期中涉及的大数据技术与应用。本书包括9章:第1章和第2章介绍大数据相关的基础理论知识;第3~5章介绍与大数据采集、预处理和存储相关的内容;第6章和第7章介绍大数据的计算模式、分析挖掘与可视化等;第8章和第9章介绍不同行业背景下大数据的成功应用案例和大数据时代的数据安全问题。 本书可作为高校计算机类专业大数据相关通识课程教材,也可作为大数据相关专业的专业课程教材,还可作为大数据爱好者、相关行业和学术领域研究者的参考书。

目录

第1章 大数据概述
本章导读 ......................................................................................... 1
1.1 大数据的定义 ........................................................................ 2
1.2 大数据的来源 ........................................................................ 3
1.3 大数据的分类及特性 ............................................................ 4
1.4 大数据的特征 ........................................................................ 6
1.5 大数据时代的新思维和新理念 ............................................ 7
1.6 大数据系统的基础架构 ...................................................... 10
1.6.1 基础支撑服务 .......................................................... 11
1.6.2 数据采集及预处理服务 .......................................... 11
1.6.3 数据存储服务 .......................................................... 11
1.6.4 数据引擎服务 .......................................................... 12
1.6.5 综合应用服务 .......................................................... 13
1.6.6 数据治理体系 .......................................................... 13
1.6.7 数据支撑体系 .......................................................... 14
1.7 大数据系统的技术体系 ...................................................... 14
1.8 本章小结 .............................................................................. 15
拓展阅读 ....................................................................................... 15
本章习题 ....................................................................................... 16
第2章 大数据基础设施
本章导读 ....................................................................................... 17
2.1 虚拟化技术 .......................................................................... 18
2.1.1 虚拟化的定义 .......................................................... 18
2.1.2 虚拟化的特征 .......................................................... 19
2.1.3 虚拟化的分类 .......................................................... 20
2.2 云计算技术 .......................................................................... 23
2.2.1 云计算的定义 .......................................................... 23
2.2.2 云计算的特点 .......................................................... 23
2.2.3 云计算的技术架构 .................................................. 25
2.2.4 云计算的部署模式 .................................................. 26
2.2.5 云计算平台的功能 .................................................. 27
2.3 Hadoop 分布式系统 ............................................................. 28
2.3.1 Hadoop 简介 ............................................................. 29
2.3.2 Hadoop 的发展历史 ................................................. 29
2.3.3 Hadoop 的特点 ......................................................... 30
2.3.4 Hadoop 的版本演进 ................................................. 31
2.3.5 Hadoop 的生态组件 ................................................. 32
2.4 本章小结 .............................................................................. 34
拓展阅读 ....................................................................................... 34
本章习题 ....................................................................................... 36
第3章 大数据采集与预处理
本章导读 ....................................................................................... 37
3.1 大数据采集 .......................................................................... 38
3.1.1 大数据系统的数据来源 .......................................... 39
3.1.2 日志数据采集 .......................................................... 40
3.1.3 网络数据采集 .......................................................... 43
3.1.4 网络旁路数据采集 .................................................. 52
3.2 大数据预处理 ...................................................................... 53
3.2.1 数据预处理概述 ...................................................... 53
3.2.2 数据特征 .................................................................. 54
3.2.3 数据规范化 ..............................................................55
3.2.4 数据抽取 .................................................................. 56
3.2.5 数据清洗 .................................................................. 57
3.2.6 数据集成 .................................................................. 61
3.2.7 数据转换 .................................................................. 62
3.2.8 数据加载 .................................................................. 63
3.2.9 数据消减 .................................................................. 63
3.3 本章小结 .............................................................................. 64
拓展阅读 ....................................................................................... 65
本章习题 ....................................................................................... 67
第4章 大数据的存储与分布式文件系统
本章导读 ....................................................................................... 69
4.1 传统存储设备 ...................................................................... 70
4.1.1 机械硬盘 .................................................................. 70
4.1.2 固态硬盘 .................................................................. 71
4.1.3 移动存储介质 .......................................................... 72
4.1.4 传统存储系统 .......................................................... 72
4.2 RAID .................................................................................... 73
4.2.1 RAID 概述 ............................................................... 73
4.2.2 RAID 架构 ............................................................... 74
4.2.3 RAID 0 ..................................................................... 75
4.2.4 RAID 1 ..................................................................... 77
4.2.5 RAID 5 ..................................................................... 78
4.3 HDFS 分布式文件系统 ....................................................... 78
4.3.1 HDFS 简介 ............................................................... 79
4.3.2 HDFS 的体系架构 ................................................... 80
4.3.3 HDFS 的名称节点与数据节点 ............................... 83
4.3.4 HDFS 的映像文件与事务日志的归并 ................... 85
4.3.5 HDFS 的数据存储特性 ........................................... 86
4.3.6 HDFS 的容错机制 ................................................... 87
4.3.7 HDFS 的高可用机制 ............................................... 88
4.3.8 HDFS 的联邦机制 ................................................... 89
4.4 本章小结 .............................................................................. 91
拓展阅读 ....................................................................................... 91
本章习题 ....................................................................................... 92
第5章 大数据的数据库系统
本章导读 ....................................................................................... 93
5.1 NoSQL 数据库 ..................................................................... 94
5.1.1 NoSQL 的特点 ........................................................ 94
5.1.2 NoSQL 的理论基础 ................................................. 96
5.1.3 NoSQL 的类型 ...................................................... 100
5.1.4 NoSQL 面临的挑战及发展趋势 ........................... 104
5.2 HBase 数据库 ..................................................................... 106
5.2.1 HBase 概述 ............................................................. 106
5.2.2 HBase 的数据模型 ................................................. 106
5.2.3 HBase 的体系架构 ................................................. 109
5.2.4 HBase 的运行机制 ................................................. 112
5.3 数据仓库 ............................................................................ 113
5.3.1 数据仓库概述 ........................................................ 113
5.3.2 Hive ........................................................................ 115
5.3.3 Impala ..................................................................... 117
5.4 本章小结 ............................................................................ 119
拓展阅读 ..................................................................................... 120
本章习题 ..................................................................................... 122
第6章 大数据的计算模式
本章导读 ..................................................................................... 123
6.1 大数据计算模式概述 ......................................................... 124
6.2 MapReduce 批处理计算框架 ............................................ 125
6.2.1 MapReduce 的思想 ................................................ 126
6.2.2 MapReduce 的功能函数 ........................................ 127
6.2.3 MapReduce 的体系架构 ........................................ 129
6.2.4 MapReduce 的工作流程 ........................................ 132
6.2.5 MapReduce 的实例 ................................................ 137
6.3 YARN 资源管理调度框架 ................................................. 138
6.3.1 YARN 概述 ............................................................ 138
6.3.2 YARN 的工作流程................................................. 140
6.3.3 YARN 的优势 ........................................................ 141
6.4 Spark 内存批处理计算框架 .............................................. 141
6.4.1 Spark 概述 ..............................................................141
6.4.2 Spark 的生态系统 .................................................. 143
6.4.3 Spark 的体系架构 .................................................. 146
6.4.4 Spark 的运行流程 .................................................. 147
6.4.5 Spark 的弹性分布式数据集 .................................. 149
6.4.6 Spark 交互查询引擎 .............................................. 156
6.5 本章小结 ............................................................................ 157
拓展阅读 ..................................................................................... 157
本章习题 ..................................................................................... 160
第7章 大数据分析挖掘与可视化
本章导读 ..................................................................................... 161
7.1 大数据分析挖掘 ................................................................ 161
7.1.1 大数据挖掘概述 .................................................... 161
7.1.2 数据分析与数据挖掘 ............................................ 163
7.1.3 大数据分析挖掘的特点及面临的挑战 ................ 164
7.2 数据相似度 ........................................................................ 166
7.2.1 数值属性的相似度度量 ........................................ 166
7.2.2 标称属性的相似度度量 ........................................ 168
7.2.3 文本相似度度量 .................................................... 168
7.3 大数据分析挖掘算法 ........................................................ 169
7.4 大数据分析挖掘工具 ........................................................ 170
7.4.1 Weka ....................................................................... 170
7.4.2 Spark MLlib ........................................................... 172
7.5 数据可视化概述 ................................................................ 174
7.5.1 大数据可视化的主要技术进展 ............................ 174
7.5.2 大数据可视化面临的挑战 .................................... 175
7.6 数据可视化流程 ................................................................ 177
7.7 数据可视化原则 ................................................................ 178
7.8 数据可视化工具 ................................................................ 179
7.9 时空数据可视化 ................................................................ 180
7.9.1 时变数据可视化 .................................................... 180
7.9.2 空间数据可视化 .................................................... 182
7.10 非时空数据可视化 .......................................................... 182
7.10.1 文本可视化 .......................................................... 182
7.10.2 高维多元数据可视化 .......................................... 182
7.11 数据可视化交互 .............................................................. 184
7.11.1 交互延时 .............................................................. 184
7.11.2 交互分类 .............................................................. 184
7.12 本章小结 .......................................................................... 185
拓展阅读 ..................................................................................... 185
本章习题 ..................................................................................... 186
第8章 大数据应用
本章导读 ..................................................................................... 188
8.1 大数据的行业应用 ............................................................. 188
8.2 智慧城市 ............................................................................ 189
8.2.1 智慧城市概述及建设内容 .................................... 189
8.2.2 智能交通与大数据 ................................................ 191
8.2.3 环境监测与大数据 ................................................ 191
8.2.4 城市规划与大数据 ................................................ 192
8.2.5 公共安全与大数据 ................................................ 192
8.3 自动驾驶 ............................................................................ 193
8.3.1 自动驾驶的发展阶段 ............................................ 194
8.3.2 软件定义汽车 ........................................................ 195
8.3.3 车联网与大数据 .................................................... 196
8.3.4 无人驾驶汽车与大数据 ........................................ 198
8.4 本章小结 ............................................................................ 200
拓展阅读 ..................................................................................... 200
本章习题 ..................................................................................... 202
第9章 大数据安全
本章导读 ..................................................................................... 203
9.1 物理安全 ............................................................................ 204
9.1.1 物理安全管理 ........................................................ 204
9.1.2 物理安全技术 ........................................................ 205
9.2 数据安全 ............................................................................ 206
9.2.1 大数据对数据安全的影响 .................................... 206
9.2.2 安全机制 ................................................................ 208
9.3 虚拟化安全 ........................................................................ 209
9.4 安全监管 ............................................................................ 210
9.5 应用安全 ............................................................................ 211
9.6 业务安全 ............................................................................ 211
9.7 大数据保护 ........................................................................ 212
9.8 本章小结 ............................................................................ 212
拓展阅读 ..................................................................................... 213
本章习题 ..................................................................................... 215

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

孔华锋,武汉商学院信息工程学院,副院长,研究员,博士。曾参与科技部重大科技专项信息安全领域“十二五”规划和公安部“十二五”国家科技支撑计划社会公共安全领域规划的起草。在信息网络安全、电子数据取证鉴定、云计算大数据、多媒体技术应用与网络存储等方面均有深入研究。先后主持和参与过“十一五”、“十二五”、“十三五”国家科技支撑计划项目、国家863项目、国家自然科学基金、发改委信息安全专项和科技基础性专项项目等多项国家科技支撑计划和省部级科研课题;作为项目负责人主持开发完成多个安全产品的研究与开发,相关成果已投入实际应用;曾任《网络事件预警与防控技术国家工程实验室》和《大数据协同安全国家工程实验室》的高级研究员。在国内外核心期刊和重要会议上发表学术论文10多篇,获得10余项专利和著作权。

相关图书

  • 计算机导论

    张珏 陈承欢

    本书通过不断调整与优化,形成了结构合理、循序渐进、容量适度的10个教学单元:计算机基础知识、计算机硬件基础、计...

    ¥79.80
  • ECharts数据可视化

    本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...

    ¥59.80
  • PHP+MySQL动态网站开发(第2版)

    本书是面向PHP语言和MySQL数据库初学者的一本入门教材,使用通俗易懂的语言、丰富的图解和实用的案例,详细讲...

    ¥59.80
  • Java基础案例教程(第3版)

    本书为Java基础入门教材,适合初学者使用。全书共13章,第1~2章主要讲解Java技术的一些基础知识,内容包...

    ¥59.80
  • 空间信息网络

    彭木根

    空间信息网络既是信息化、智能化和现代化社会的战略性基础设施,也是推动科学技术发展、转变经济发展方式、实现技术创...

    ¥79.80
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部