大数据技术原理与案例应用(微课版)

配有中国移动梧桐大数据在线实训平台
分享 推荐 0 收藏 26 阅读 2.7K
鄂海红 (作者) 978-7-115-63899-1

关于本书的内容有任何问题,请联系 刘博

【内容特点】
(1)内容全面,结构合理:根据大数据处理的经典方式,讲解大数据离线处理、实时处理、交互式OLAP多维分析三种不同应用场景的技术架构、组件构成及其基本理论、案例工程设计及实训。
(2)真实案例,实践实训:结合中国移动“梧桐”平台,以“真案例、真数据、全流程、可视化”,达成大数据实践教学“四真”创新“实践目标真、环境操作真、能力提升真、收获感受真”为亮点。
(3)注重应用,体现前沿:与科技发展动态紧密结合,用现实生活和工作中的具体实例去印证书中讲述的理论知识,让学生理解得更透彻。
【资源特点】提供详细的实验指导、数据集资源,除了配套常规资源(如PPT、教学大纲、习题答案)外,还提供在线实训平台、微课视频,助力打造新形态精品教材。
【服务特点】作者可以提供直播以及QQ服务群等支持。

内容摘要

本书共5章,包括大数据技术及实训学习概述、大数据离线处理开发实践、大数据实时处理开发实践、大数据交互式OLAP多维分析开发实践、大数据可视化应用开发实践,系统介绍离线处理、实时处理、交互式OLAP多维分析、可视化应用开发的基础理论知识和工程实践方法。本书在基本概念、基本原理和操作方法的基础上,突出工程应用,结合中国移动梧桐大数据平台,以中国移动的真实大数据分析工程为案例,详细讲解通过在线实训平台实现大数据处理开发的过程,力图做到基础理论知识成体系、结构与条理清晰、内容精炼,工程实践联系实际、重点突出、实操性强。
本书可作为数据科学与大数据技术、计算机科学与技术、软件工程、人工智能、网络空间安全、金融科技等专业大数据课程的教材;可供零基础大数据技术学习者使用;适合有经验的软件工程师使用,可帮助其掌握大数据综合工程实践的技术路线,更好地将相关知识运用于实际工作;可提各行各业致力于使用大数据技术快速推动本行业数字化转型的相关科技人员参考。

目录

1.1 大数据技术概述 1
1.1.1 大数据概念与大数据技术发展历史简述 1
1.1.2 数据要素与数字经济发展趋势 2
1.2 大数据平台架构 5
1.2.1 大数据平台概述 5
1.2.2 大数据离线处理架构 9
1.2.3 大数据实时处理架构 9
1.2.4 大数据交互式OLAP多维分析架构 10
1.2.5 大数据可视化应用架构 11
1.2.6 大数据工程学习技能树 11
1.3 大数据开发案例实训学习介绍 13
1.3.1 梧桐?鸿鹄大数据实训平台介绍 13
1.3.2 梧桐?鸿鹄大数据实训开发案例介绍 17
1.3.3 梧桐?鸿鹄校企合作平台介绍 21
1.4 本章小结 22
1.5 习题 22


2.1 大数据离线批处理技术栈 24
2.1.1 大数据离线批处理应用场景 24
2.1.2 大数据离线批处理技术栈演进 25
2.2 分布式文件系统HDFS 26
2.2.1 HDFS体系框架及基本原理 26
2.2.2 HDFS操作实践 29
2.3 分布式计算框架MapReduce 31
2.3.1 MapReduce基本原理 31
2.3.2 MapReduce 32
2.3.3 Map任务和Reduce任务与HDFS的配合 33
2.3.4 MapReduce运行机制 34
2.3.5 MapReduce操作实践 36
2.4 分布式资源管理组件YARN 39
2.4.1 YARN资源调度框架产生的背景 39
2.4.2 YARN的基本原理 40
2.4.3 YARN的作业调度 42
2.5 分布式内存计算框架Spark 44
2.5.1 Spark体系框架及基本原理 44
2.5.2 Spark RDD及Spark算子知识 47
2.5.3 Spark操作实践——Scala语言 50
2.6 金融行业“羊毛党”识别案例实践 65
2.6.1 “羊毛党”识别需求背景概述 65
2.6.2 “羊毛党”识别基础理论概述 67
2.6.3 “羊毛党”识别数据方案设计 69
2.6.4 基于梧桐?鸿鹄大数据实训平台的“羊毛党”
识别实践 70
2.7 本章小结 87
2.8 习题 87


3.1 大数据实时处理技术栈 89
3.1.1 大数据实时处理应用场景 89
3.1.2 大数据实时处理技术栈演进 91
3.2 分布式消息系统Kafka 97
3.2.1 Kafka体系框架及基本原理 97
3.2.2 Kafka操作实践 101
3.3 分布式实时处理Spark Streaming 106
3.3.1 Spark Streaming基本原理 106
3.3.2 Spark Streaming操作实践 109
3.4 分布式实时处理Flink 110
3.4.1 Flink体系框架及基本原理 110
3.4.2 Flink DataStream知识 122
3.4.3 Flink操作实践 127
3.5 高速道路及服务区拥堵洞察案例实践 136
3.5.1 高速道路及服务区拥堵洞察背景概述 136
3.5.2 高速道路及服务区拥堵人数数据方案设计 139
3.5.3 基于梧桐?鸿鹄大数据实训平台的高速道路
用户速度和服务区人数的计算 140
3.5.4 高速用户和服务区实时数据的应用 142
3.6 本章小结 144
3.7 习题 144


4.1 大数据交互式分析技术栈 145
4.1.1 大数据交互式分析应用场景 145
4.1.2 数据仓库基本概念 146
4.1.3 多维数据模型与多维数据分析 148
4.1.4 OLAP与数据立方体 150
4.1.5 大数据交互式分析技术栈演进 153
4.2 分布式数据仓库Hive 154
4.2.1 Hive体系框架及基本原理 154
4.2.2 Hive在数据仓库中的应用 155
4.3 Hive SQL操作实践 157
4.3.1 Hive SQL:数据定义 157
4.3.2 Hive SQL:数据导入 158
4.3.3 Hive SQL:数据查询 160
4.4 分布式计算框架Spark SQL 165
4.4.1 Spark SQL简介 165
4.4.2 Spark SQL原理 166
4.4.3 Spark SQL操作实践 166
4.5 分布式计算框架Flink关系型API 178
4.5.1 Flink的关系型API概述及实现原理 178
4.5.2 Flink SQL操作实践 179
4.6 大数据交互式OLAP多维分析案例实践 188
4.6.1 大数据交互式OLAP多维分析需求背景概述 188
4.6.2 大数据交互式OLAP多维分析数据方案设计 189
4.6.3 基于梧桐?鸿鹄大数据实训平台的案例实践 193
4.7 本章小结 219
4.8 习题 219


5.1 基于Java Web的大数据可视化应用技术栈 220
5.1.1 大数据可视化应用场景 220
5.1.2 大数据可视化应用技术栈 221
5.2 开源大数据可视化应用介绍 221
5.2.1 开源大数据可视化系统简介 221
5.2.2 系统架构 222
5.2.3 系统界面 223
5.3 开源大数据可视化工具部署及核心代码分析 231
5.3.1 搭建后端开发环境 232
5.3.2 搭建前端开发环境 238
5.3.3 前后端核心代码逻辑 240
5.4 “园区务工人员洞察”可视化分析案例应用 246
5.4.1 “园区务工人员洞察”用户识别需求背景概述 246
5.4.2 “园区务工人员洞察”用户识别数据方案设计 250
5.4.3 基于梧桐?鸿鹄大数据实训平台的“园区务工
人员洞察”用户识别实践 250
5.5 “园区务工人员洞察”可视化数据大屏案例应用 255
5.5.1 分析数据导入 255
5.5.2 数据大屏设计 263
5.5.3 数据大屏发布 266
5.6 本章小结 267
5.7 习题 268

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

鄂海红,博士,教授,2010年7月毕业于北京邮电大学计算机学院,首批北京市青年英才、北京邮电大学1551托举人才、北京邮电大学青年教学名师,北邮本科课程思政示范课程《大数据技术基础》优秀教学团队负责人、课程思政教学名师 ,获教育部-华为智能基座栋梁之师、华为“先锋教师”、首届北邮“优秀研究生育人导师” 称号。先后担任了6门大数据技术系列课程负责人,主导完成大数据北邮-华为智能基座课程建设,在大数据方向探索出了同行可全面复用的华为云大数据高校课程实验体系,被华为评为优秀教学方案,2022年获评教育部-华为“智能基座”优秀课件。指导学生获得首届教育部“中国高校科技成果交易会”成果创新奖;指导学生获市级优秀本科毕业设计、获评华为“智能基座”“未来之星”。主导了大数据方向的3项教育部协同育人项目、3项校级“高新课程”、2项校级教改项目;出版《数联网-大数据如何互联》专著和《大数据技术基础》《大数据技术基础实验》 教材。

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部