大数据技术基础

一本全面介绍大数据技术概况的入门书籍
分享 推荐 6 收藏 68 阅读 8.0K
薛志东 (作者) 978-7-115-48307-2

关于本书的内容有任何问题,请联系 孙澍

1.本书为教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目的成果
2.提供系统完整的数据科学与大数据专业解决方案
3.名校名师打造大数据领域精品力作
4.全面介绍大数据技术概况
5.讲解Hadoop生态圈平台、工具与技术
¥55.00 ¥46.75 (8.5 折)
教学资源仅供教师教学使用,转载或另作他用版权方有权追究法律责任。

内容摘要

本书系统、全面地介绍了大数据技术的基础知识,期望读者通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。主要内容包括大数据概述、大数据软件技术基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析技术、数据挖掘与分析技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。
本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材,也可供大数据工程技术人员阅读使用。

目录

第1章 大数据概述 1
 1.1 大数据的相关概念 2
 1.2 大数据处理的基础技术 4
1.2.1 大数据处理流程 4
1.2.2 分布式计算 5
1.2.3 分布式文件系统 6
1.2.4 分布式数据库 7
1.2.5 数据库与数据仓库 8
1.2.6 云计算与虚拟化技术 8
1.2.7 虚拟化产品介绍 9
 1.3 流行的大数据技术 12
 1.4 大数据解决方案 17
 1.5 大数据发展现状和趋势 19
1.5.1 大数据现状分析 19
1.5.2 大数据发展趋势 21
 1.6 教学建议及教辅资料 22
 习题 23
第2章 大数据软件基础 24
 2.1 Linux基础 25
2.1.1 Linux简介 25
2.1.2 Linux基本操作 25
2.1.3 网络配置管理 29
2.1.4 其他常用网络命令 32
 2.2 Java基础 34
2.2.1 面向对象与泛型 34
2.2.2 集合类 36
2.2.3 内部类与匿名类 37
2.2.4 反射 38
 2.3 SQL语言基础 39
 2.4 在VirtualBox上安装Linux集群 41
2.4.1 master节点的安装 41
2.4.2 配置Virtualbox网络及虚拟机网卡 49
2.4.3 slave节点的安装与配置 51
2.4.4 Java环境的安装 51
2.4.5 MySQL服务 52
2.4.6 SSH免密钥登录 53
2.4.7 配置时钟同步 55
 习题 56
第3章 大数据存储技术 57
 3.1 理解HDFS分布式文件系统 58
3.1.1 HDFS简介 58
3.1.2 HDFS的体系结构 59
3.1.3 HDFS中的数据流 62
 3.2 NoSQL数据库 66
3.2.1 键值数据库Redis 66
3.2.2 列存储数据库HBase 68
3.2.3 文档数据库MongoDB 71
3.2.4 图数据库Neo4j 73
 3.3 Hadoop的安装与配置 74
3.3.1 Hadoop的配置部署 75
3.3.2 启动Hadoop集群 79
 3.4 HDFS文件管理 82
3.4.1 命令行访问HDFS 82
3.4.2 使用Java API访问HDFS 84
 3.5 HBase的安装与配置 88
3.5.1 解压并安装HBase 88
3.5.2 配置HBase 88
 3.6 HBase的使用 91
3.6.1 HBase-shell 91
3.6.2 Java API 94
 习题 96
第4章 MapReduce分布式编程 97
 4.1 MapReduce编程概述 98
 4.2 MapReduce编程示例 98
4.2.1 词频统计程序示例 99
4.2.2 MapReduce编译与运行 101
4.3 深入理解MapReduce程序的运行过程 102
 4.4 MapReduce任务调度框架 104
4.4.1 经典MapReduce任务调度模型 104
4.4.2 YARN框架原理及运行机制 105
4.5 MapReduce的数据类型与输入/输出格式 107
4.5.1 MapReduce的数据类型 107
4.5.2 MapReduce的文件输入/输出格式 107
 4.6 MapReduce编程实例 111
4.6.1 视频类型统计 111
4.6.2 查询TOP10用户上传的视频列表 113
 习题 118
第5章 数据采集与预处理 119
 5.1 流数据采集工具Flume 120
5.1.1 Flume的安装 121
5.1.2 Flume的配置与运行 122
5.1.3 Flume源 124
5.1.4 Flume槽 127
5.1.5 通道、拦截器与处理器 129
 5.2 数据传输工具Sqoop 130
5.2.1 Sqoop的安装 131
5.2.2 Sqoop的配置与运行 131
5.2.3 Sqoop实例 132
5.2.4 Sqoop导入过程 135
5.2.5 Sqoop导出过程 136
 5.3 数据接入工具Kafka 136
5.3.1 Kafka的安装与配置 138
5.3.2 Kafka消息生产者 140
5.3.3 Kafka消息消费者 140
5.3.4 Kafka核心特性 141
 习题 142
第6章 数据仓库与联机分析处理 143
 6.1 数据仓库 144
6.1.1 数据仓库的概念 144
6.1.2 数据仓库与操作性数据库的区别 144
6.1.3 数据仓库的体系结构 145
 6.2 多维数据模型 146
6.2.1 数据立方体 146
6.2.2 数据模型 147
6.2.3 多维数据模型中的OLAP操作 150
 6.3 Hive 153
6.3.1 Hive简介 153
6.3.2 Hive的安装与配置 154
6.3.3 Hive使用 156
6.3.4 Hive导入数据实例 161
 6.4 Kylin 164
6.4.1 Kylin简介 164
6.4.2 Kylin的安装与配置 165
6.4.3 Kylin的使用 168
 6.5 Superset 175
6.5.1 Superset简介 175
6.5.2 Superset的安装与配置 175
6.5.3 Superset的使用 177
 习题 186
第7章 大数据分析与挖掘技术 187
 7.1 概述 188
7.1.1 数据挖掘简介 188
7.1.2 Mahout的安装与配置 189
 7.2 推荐 192
7.2.1 推荐的定义与评估 192
7.2.2 Mahout中的常见推荐算法 194
7.2.3 对GroupLens数据集进行推荐与评价 196
 7.3 聚类 198
7.3.1 聚类的基本概念 198
7.3.2 常见的Mahout数据结构 199
7.3.3 几种聚类算法 200
7.3.4 聚类应用实例 202
 7.4 分类 206
7.4.1 分类的基本概念 206
7.4.2 Mahout中一些常见的训练分类器算法 208
7.4.3 应用实例:使用SGD训练分类器对新闻分类 210
 习题 213
第8章 Spark分布式内存计算框架 214
 8.1 Spark简介 215
 8.2 Spark的编程模型 216
8.2.1 核心数据结构RDD 216
8.2.2 RDD上的操作 216
8.2.3 RDD的持久化 218
8.2.4 RDD计算工作流 218
 8.3 Spark的调度机制 219
8.3.1 Spark分布式架构 219
8.3.2 Spark应用执行流程 220
8.3.3 Spark调度与任务分配 222
 8.4 Spark应用案例 225
8.4.1 Spark Shell 225
8.4.2 单词计数 227
8.4.3 统计用户的视频上传数 229
8.4.4 查询Top100用户的上传视频列表 230
 8.5 Spark生态圈其他技术 233
8.5.1 Spark SQL 233
8.5.2 Spark Streaming 235
8.5.3 MLlib 236
8.5.4 GraphX 242
8.6 Zeppelin:交互式分析Spark数据 243
8.6.1 Zeppelin简介 243
8.6.2 安装和启动 244
8.6.3 在Zeppelin中处理YouTube数据 244
 习题 246
第9章 数据可视化技术 247
 9.1 数据可视化概述 248
 9.2 数据可视化工具 249
9.2.1 桌面可视化技术 249
9.2.2 OLAP可视化工具 251
9.2.3 Web可视化技术 251
 9.3 可视化组件与ECharts示例 253
9.3.1 ECharts使用准备 253
9.3.2 ECharts示例 254
 9.4 与大数据平台集成 268
9.4.1 获取对Hive数据库的连接 268
9.4.2 通过Java调用Hive提供的API操作数据 269
9.4.3 将数据提交到Web页面进行数据可视化 271
 习题 272
第10章 大数据安全 273
 10.1 大数据安全的挑战与对策 274
10.1.1 大数据安全与隐私的挑战 274
10.1.2 数据加密技术 275
10.1.3 大数据安全保障体系 275
10.1.4 华为大数据安全解决方案 276
 10.2 基础设施安全 277
10.2.1 认证技术 278
10.2.2 访问控制 279
10.2.3 公钥基础设施 281
10.2.4 华为大数据平台 281
 10.3 数据管理安全 285
10.3.1 数据溯源 285
10.3.2 数字水印 285
10.3.3 策略管理 287
10.3.4 完整性保护 287
10.3.5 数据脱敏 288
 10.4 安全分析 290
10.4.1 大数据安全分析架构 290
10.4.2 大数据防DDoS攻击 292
10.4.3 攻击可视化与安全业务定制 297
 10.5 隐私保护 298
10.5.1 隐私保护面临的挑战 298
10.5.2 内容关联密钥 298
10.5.3 华为大数据隐私保护方案 300
 习题 302
附录 《大数据技术基础》配套实验课程方案简介 303
参考文献  304

读者评论

  • 这么好的书, 应该在印刷了吧?! ,希望在8月底能到手! :D

    chris.wahl@foxmail.com发表于 2018/8/15 15:40:25
  • 怎么买不到啊?还没有发售嘛?

    lvxiayang发表于 2018/7/12 10:32:37
    • 您好,此书正在审校,马上会出版,请您后续关注下,谢谢。

      人邮教育专员发表于 2018/7/12 10:34:51

我要评论

作者介绍

薛志东,博士,研究员,华中科技大学软件学院数据科学中心主任,湖北省运筹学会数据科学与大数据专委会主任委员。先后讲授Java面向对象技术、数字图像处理、虚拟现实等课程;在NAR、Bioinformatics等国际一流期刊上发表论文10余篇。目前主要从事大数据处理及应用、康复游戏研发等工作,具有丰富软件研发经验。

推荐用户

购买本书用户

相关图书

人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部