大数据技术精品系列教材

大数据开发项目实战

浙江省普通本科高校“十四五”重点教材,贯穿讲解一个大数据的实战项目
分享 推荐 2 收藏 71 阅读 4.9K
祝锡永 , 张良均 (主编) 陈小伟 , 胡军浩 , 王爱国 (副主编) 978-7-115-59804-2

关于本书的内容有任何问题,请联系 初美呈

1. 以任务为导向,实现大数据项目开发全流程操作
2. 随书附带案例数据及代码,方便读者系统学习并动手实践
3. 实现企业实际项目,综合性强
4. 包括数据采集、数据分析、数据存储、数据可视化等多个模块

内容摘要

本书以项目案例为导向,贯穿讲解一个大数据的实战项目:广电大数据用户画像。全书共8章,具体内容包括大数据项目概述、Hadoop生态组件基础、广电大数据用户画像——需求分析、广电大数据用户画像——数据采集与预处理、广电大数据用户画像——实时统计订单信息、广电大数据用户画像——用户标签计算与可视化、广电大数据用户画像——任务调度实现、基于TipDM大数据挖掘建模平台实现广电大数据用户画像。本书从项目需求探索、技术选型、架构设计、集群安装部署与集成开发以及项目开发进行实战讲解,有助于读者综合运用大数据技术知识和各种工具软件,实现大数据项目开发全流程操作。
本书可以作为高校大数据技术类专业的大数据项目实训课程的教材,也可以作为大数据技术爱好者的自学用书。

目录

第 1章 大数据项目概述 1
学习目标 1
1.1 企业大数据项目简介 1
1.1.1 数据处理流程 1
1.1.2 架构分析 2
1.1.3 人员安排 5
1.2 大数据项目实战基础 5
1.2.1 实战环境 5
1.2.2 涉及的技术及需掌握的能力 11
小结 20

第 2章 Hadoop生态组件基础 21
学习目标 21
2.1 Hadoop基础 21
2.1.1 Hadoop概述 21
2.1.2 Hadoop集群安装与配置 25
2.1.3 Hadoop框架组成 36
2.1.4 Hadoop应用实践 42
2.2 Hive基础 45
2.2.1 Hive概述 45
2.2.2 Hive安装与配置 46
2.2.3 Hive体系架构 50
2.2.4 Hive应用实践 54
2.3 Spark基础 58
2.3.1 Spark概述 59
2.3.2 Spark集群安装与配置 63
2.3.3 Spark集群架构 66
2.3.4 Spark应用实践 67
小结 69

第3章 广电大数据用户画像——需求分析 70
学习目标 70
3.1 项目需求 70
3.1.1 项目背景 70
3.1.2 项目目标 71
3.2 需求探索 71
3.2.1 数据说明 71
3.2.2 基础探索 76
3.2.3 业务需求探索 84
3.3 技术方案 96
3.3.1 技术选型 96
3.3.2 系统架构 98
小结 99

第4章 广电大数据用户画像——数据采集与预处理 101
学习目标 101
4.1 业务数据 101
4.1.1 生产数据来源 101
4.1.2 模拟产生业务数据 102
4.2 数据存储与传输 119
4.2.1 Elasticsearch数据传输到Hive 119
4.2.2 用户画像标签结果保存到MySQL 133
4.3 基础数据预处理 135
小结 141

第5章 广电大数据用户画像——实时统计订单信息 142
学习目标 142
5.1 实时统计目标 142
5.2 Kafka安装和配置 142
5.3 实时统计订单信息 144
5.3.1 模拟产生订单实时数据流 144
5.3.2 Spark Streaming实时统计订单信息 146
小结 151

第6章 广电大数据用户画像——用户标签计算与可视化 152
学习目标 152
6.1 SVM预测用户是否值得挽留 152
6.1.1 SVM算法 152
6.1.2 构建特征列和标签列数据 153
6.1.3 建立SVM模型 159
6.1.4 模型评估 160
6.1.5 模型预测 161
6.1.6 整体实现及参数封装 163
6.2 用户画像 168
6.2.1 用户画像概述 169
6.2.2 标签计算 170
6.2.3 用户画像工程实现 179
6.3 用户画像可视化 188
6.3.1 用户画像可视化简介 188
6.3.2 可视化工程实现 188
6.3.3 结果展示 192
小结 195

第7章 广电大数据用户画像——任务调度实现 196
学习目标 196
7.1 调度策略 196
7.2 调度实现 199
小结 227

第8章 基于TipDM大数据挖掘建模平台实现广电大数据用户画像 229
学习目标 229
8.1 平台简介 229
8.1.1 模板 230
8.1.2 数据空间 231
8.1.3 我的项目 232
8.1.4 系统组件 232
8.1.5 个人组件 234
8.1.6 访问TipDM大数据挖掘建模平台的方式 234
8.2 广电大数据用户画像开发 234
8.2.1 数据源配置 236
8.2.2 数据探索 238
8.2.3 数据处理 239
8.2.4 用户画像 241
小结 249

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

祝锡永,男,现为浙江理工大学管理科学与工程教授,管理科学与工程系主任,信息管理与信息系统专业负责人,国家级双万一流专业建设点负责人。主讲课程:数据库原理与应用、软件开发工具、管理信息系统、数据挖掘与应用。主要研究方向:信息系统开发工具与技术、数据库技术、知识管理与商务智能
张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。

推荐用户

同系列书

  • Python数据分析与应用

    黄红梅 张良均 张凌 施兴 周东平

    本书以任务为导向,全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际...

    ¥49.80
  • Python中文自然语言处理基础与实战

    肖刚 张良均 郑鑫标 罗惠琳 陈晓娜

    本书以Python自然语言处理的常用技术与真实案例相结合的方式,深入浅出地介绍Python自然语言处理的重要内...

    ¥59.80
  • Python网络爬虫技术

    江吉彬 张良均 詹增荣 戴华炜 郭信佑

    本书以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法,包括静态网页、动态网页、登录后才能...

    ¥39.80
  • Python编程基础

    张健 张良均 何燕 张敏 姜鹏辉

    本书采用以任务为导向的编写模式,全面地介绍了Python编程基础及其相关知识的应用,讲解了如何利用Python...

    ¥39.80
  • Spark大数据技术与应用

    肖芳 张良均 汪作文 胡大威 樊哲

    本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Sc...

    ¥49.80

购买本书用户

相关图书

  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80
  • 人工智能原理及MATLAB实现

    许国根

    本书系统地阐述了人工智能算法的基本原理、实现技术及其应用,基本涵盖了其重要理论和方法,包括了最近发展起来的并被...

    ¥79.80
  • 大数据分析处理(慕课版)

    郭永洪,贺萌

    本书采用理论知识与任务案例相结合的形式,以PyCharm为主要开发工具,系统地阐述了大数据分析处理工作流程中的...

    ¥69.80
单击此处加入人邮大数据教师服务群,共同探讨交流。
人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部