大数据分析处理(慕课版)

大数据分析处理教程
分享 推荐 0 收藏 16 阅读 1.2K
郭永洪,贺萌 (作者) 978-7-115-62827-5

关于本书的内容有任何问题,请联系 刘佳

1.信息类名校常州信息职业技术学院团队打造
2.岗课赛证,融入“1+X”证书职业技能等级标准
3.单元任务式写法,符合职教认知规律
4.教材编写融入思政元素
5.校企“双元”合作开发新形态教材

内容摘要

本书采用理论知识与任务案例相结合的形式,以PyCharm为主要开发工具,系统地阐述了大数据分析处理工作流程中的重要步骤,介绍了大数据分析过程中常用的几种第三方库。本书共13个单元,第1单元介绍了大数据分析处理的概念;第2、3单元介绍了大数据分析中科学计算与统计分析的相关知识;第4-7单元介绍了使用Pandas实现数据预处理的方法;第8单元介绍了使用Scikit-learn实现简单的机器学习的方法;第9单元介绍了使用Matplotlib、Seaborn绘制图表的方法;第10-13单元分别介绍了4个大数据分析处理的综合案例。单元1-9中,每个单元都包含了相关知识部分和任务实现部分,任务实现部分一般包含多个任务的具体实现过程,每个任务后面都有课堂实践,通过完成实践操作,读者可以进一步巩固所学知识。
本书既可作为高等院校大数据技术专业的教材,也可作为大数据爱好者的自学书籍。

目录

目录
单元1 大数据分析概述 1
学习目标 1
相关知识 1
1. 大数据分析的概念 1
2. 大数据分析的产生与发展过程 2
3. 大数据分析的应用场景 3
4. 大数据分析流程 4
5. 传统的分析统计工具 9
6. 大数据处理编程语言 9
7. 大数据分析实用工具 10
任务实现 11
任务1.1根据业务需求选择合适的大数据分析技术 11
1.1.1 业务需求分析 11
1.1.2 选择大数据分析技术 12
任务1.2 使用 pip和Pycharm完成 Python包的管理 13
1.2.1 了解Python常用库 13
1.2.2 使用pip命令安装、卸载Python包 14
1.2.3 使用Pycharm平台安装、卸载Python包 16
思政园地 19
单元小结 20
课后习题 20

单元2 NumPy科学计算基础 22
学习目标 22
相关知识 22
1.NumPy与ndarray对象 22
2.创建ndarray数组的函数 23
3.ndarray对象的数据类型 23
4.数组的矢量化运算 24
5.广播机制 25
6.数组与标量的运算 26
7.NumPy通用函数 26
8.NumPy的统计与排序方法 27
9.NumPy的numpy.linalg模块 29
任务实现 29
任务2.1 保存考试成绩—创建一个数组 29
2.1.1 使用函数创建数组 29
2.1.2 掌握随机数模块的使用 32
任务2.2 查看考试成绩数据类型—查看数组的数据类型 35
2.2.1 查看数据类型 35
2.2.2 实现数据类型转换 36
任务2.3 对两门课成绩进行相加—实现数组运算 37
2.3.1 实现矢量化运算 37
2.3.2 实现数组广播 38
2.3.3 实现数组与标量间的运算 39
任务2.4 对考试成绩进行计算—使用NumPy通用函数实现数组计算 39
2.4.1 一元通用函数的使用 40
2.4.2 二元通用函数的使用 40
任务2.5对考试成绩进行统计排序—利用NumPy数组进行数据处理 42
2.5.1 变换数组的形态 42
2.5.2 实现数组统计 44
2.5.3 实现数组排序 47
任务2.6 对多门课成绩进行计算—使用NumPy的线性代数模块处理矩阵 49
2.6.1 计算对角线元素和 49
2.6.2 实现矩阵乘法 49
思政园地 50
单元小结 51
课后习题 51
单元3 Pandas统计分析基础 53
学习目标 53
相关知识 53
1. Pandas与Pandas的数据类型 53
2.创建Series和DataFrame的函数 55
3.索引与切片 56
4.排序算法与实现排序的方法 56
5.统计学与实现统计的方法 56
任务实现 57
任务3.1 用不同方式创建系列——创建Series 57
3.1.1 创建一个空的Series 57
3.1.2 使用ndarray对象创建一个Series 58
3.1.3 使用字典创建一个Series 58
3.1.4 使用标量创建一个Series 59
任务3.2 用不同方式创建数据帧——创建DataFrame 59
3.2.1 使用字典创建数据帧 59
3.2.2 使用csv文件创建DataFrame 62
3.2.3 在DataFrame中插入列和行 63
任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片 65
3.3.1 使用索引访问数据 65
3.3.2 使用切片提取部分数据 66
任务3.4 对学生数据进行排序—实现数据排序 67
3.4.1 使用sort、sort_index、sort_values实现数据排序 67
3.4.2 控制排序顺序 69
3.4.3 设置排序算法 71
任务3.5 进行随机数据统计—实现数据统计 72
3.5.1 使用Pandas的统计方法进行统计 72
3.5.2 使用describe方法描述数据 76
思政园地 77
单元小结 77
课后习题 78

目录
单元4 数据加载与存储 80
学习目标 80
相关知识 80
1. 常用的数据文件类型 80
2.文本文件读取和写入 81
3.Excel文件读取和写入 83
4. 数据库文件读取和写入 85
任务实现 88
任务4.1 读取并存储城市经纬度数据-txt文件读写 88
4.1.1 读取txt文件中数据 89
4.1.2 将数据写入txt文件 91
任务4.2 读取并存储招聘数据-csv文件的读写 92
4.2.1 读取csv文件数据 93
4.2.2 将数据写入csv文件 94
任务4.3 读取并存储用户数据-Excel文件的读写 96
4.3.1 读取Excel文件工作表数据 96
4.3.2 将数据写入Excel文件的工作表中 96
任务4.4 读取商品类别数据并存储账户数据-MySQL数据库读写 96
4.4.1 连接MySQL数据库 96
4.4.2 从MySQL数据库读取数据 96
4.4.3 存储数据到MySQL数据库 96
思政园地 96
单元小结 96
课后习题 96

目录
单元5 数据质量与数据清洗 110
学习目标 110
相关知识 110
1.企业数据管理现状 110
2.数据标准 111
3.数据质量的定义 111
4.常用的数据质量检测手段 113
5.数据质量管理的必要性 113
6. 缺失值 114
7. 重复值 115
8. 异常值 117
任务实现 120
任务5.1 医药销售数据遗漏检查-缺失值处理 120
5.1.1 发现缺失值 121
5.1.2 处理缺失值 123
任务5.2 医药销售数据去重校验-重复值处理 125
5.2.1 重复值判断和查看 125
5.2.2 处理记录重复值 126
5.2.3 处理特征重复值 127
任务5.3 医药销售数据异常值排除-异常值处理 130
5.3.1 异常值识别 131
5.3.2 异常值处理 132
思政园地 133
单元小结 133
课后习题 134

单元6 数据合并与转换 136
学习目标 136
相关知识 136
1.concat()函数 136
2.append()方法 138
3.merge()函数 138
4.join()方法 141
5.combine_first()方法 142
6.map()方法 143
7.cut()函数 143
8.qcut()函数 144
任务实现 145
任务6.1 堆叠学生信息和考试成绩数据—实现数据堆叠 145
6.1.1 实现数据横向堆叠 145
6.1.2 实现数据纵向堆叠 146
任务6.2 连接学生信息和考试成绩数据—实现数据连接 148
6.2.1 使用merge()函数实现数据连接 148
6.2.2 使用join()方法实现数据连接 150
6.2.3 使用combine_first()方法重叠合并数据 151
任务6.3 对学生考试成绩进行等级转换—实现数据映射转换 152
6.3.1 使用自定义函数映射转换数据 152
6.3.2 使用字典映射转换数据 153
6.3.3 使用lambda表达式映射转换数据 154
任务6.4 对学生考试成绩进行离散化—实现数据离散化 155
6.4.1 实现数据等宽离散化 155
6.4.2 实现数据等频离散化 156
思政园地 157
单元小结 157
课后习题 158

单元7 数据分组与聚合 160
学习目标 160
相关知识 160
1.数据分组的概念 160
2.GroupBy机制 161
3.数据分组的原则和依据 161
4.数据分组的方法与体系 162
5.数据聚合的概念 163
6. agg和aggregate函数 163
7. apply函数 163
8. transform函数 163
任务实现 164
任务7.1 简单数据表处理-数据分组 164
7.1.1 数据分组方法 164
7.1.2 实现Pandas 数据分组 166
任务7.2 人员得分表处理-数据聚合 172
7.2.1 实现agg聚合 172
7.2.2 实现apply聚合 175
7.2.3 实现transform聚合 179
思政园地 181
单元小结 182
课后习题 182
单元8 Scikit-learn机器学习 184
学习目标 184
相关知识 184
1.机器学习的概念 184
2.机器学习的基本术语 185
3.机器学习的分类与应用 185
4.假设空间 185
5.归纳偏好 186
6.Sklearn 187
7.划分数据集函数 188
8.preprocessing模块 189
9.标准化和归一化 190
10.降维 190
11.线性回归 191
12.逻辑回归 192
13.K-means算法 194
14.朴素贝叶斯 195
15.支持向量机算法 198
任务实现 201
任务8.1 使用sklearn处理iris数据集—使用sklearn处理数据 201
8.1.1 导入数据集 201
8.1.2 划分训练集和测试集 202
任务8.2 boston数据集预处理和降维—数据集预处理 202
8.2.1 实现数据标准化 202
8.2.2 实现数据归一化 202
8.2.3 实现PCA降维 202
任务8.3 构建并评价boston回归模型—回归模型分析与预测 202
8.3.1 实现线性回归 202
8.3.2 实现支持向量机算法 202
任务8.4 构建并评价iris分类模型—分类模型分析与预测 202
8.4.1 实现逻辑回归分类 202
8.4.2 实现朴素贝叶斯算法 202
任务8.5 构建并评价iris聚类模型—聚类模型分析与评价 202
8.5.1 实现K-means算法 202
8.5.2 评价K-means算法 202
思政园地 202
单元小结 202
课后习题 202
单元9 使用统计图表展示数据 225
学习目标 225
相关知识 225
1. 数据可视化的概念 225
2. 数据可视化设计过程 226
3. 基本图表类型及使用场景 227
4. pyplot基础语法 229
5. rc参数 230
6. 绘制线图的函数plot 231
7. 绘制柱状图的函数bar 232
8. 绘制直方图的函数hist 232
9. 绘制饼图的函数pie 233
10. 绘制散点图的函数scatter 233
11. 子图的概念 234
12. Seaborn 235
任务实现 236
任务9.1 使用线图展示水果销量变化曲线—掌握matplotlib基础语法 236
9.1.1 掌握pyplot基础语法 236
9.1.2 设置pyplot的动态rc参数 237
任务9.2 使用常用图表展示多个品牌汽车销售额—绘制常见图表 239
9.2.1 绘制线图 239
9.2.2 绘制柱状图 241
9.2.3 绘制直方图 243
9.2.4 绘制饼图 244
9.2.5 绘制散点图 246
任务9.3 使用子图展示就业率数据—创建子图 248
9.3.1数据分析与子图设计 249
9.3.2 实现子图的创建 250
任务9.4 使用Seaborn展示汽车数据的分布与相关性—使用Seaborn绘制图表 252
9.4.1 使用Seaborn绘制直方图 252
9.4.2 使用Seaborn绘制热力图 253
思政园地 255
单元小结 256
课后习题 256
单元10 某地区电力公司用户付费行为预测 258
任务10.1 案例背景概述 258
10.1.1项目目标 258
10.1.2相关背景业务知识 258
10.1.3数据采集和理解 258
任务10.2 电力数据预处理 259
10.2.1按账户和日期排序 260
10.2.2统计每个账户每个月各种账户活动发生的数量 261
10.2.3计算当月月底的账户余额 262
10.2.4计算当月月底账户余额,按下月10日前计算的账户余额 263
10.2.5计算每个账户每个月的用电量和缴费量 264
10.2.6合并整理为新的用户缴费明细和用电量明细表 265
10.2.7数据中空值的处理 265
任务10.3 模型建立与评估 265
10.3.1数据特征的转换 265
10.3.2逻辑回归模型建立与评估 265
10.3.3支持向量机模型建立与评估 265
单元11 《你好,旧时光》文本挖掘分析 275
任务11.1 案例背景概述 275
11.1.1项目目标 275
11.1.2相关背景知识 275
11.1.3实验准备 276
任务11.2 文本数据准备与处理 277
11.2.1读入数据与基本处理 277
11.2.2创建停用词 277
11.2.3找出章节的头部索引和尾部索引 277
11.2.4 绘制章节段数与字数折线图 278
任务11.3 文本分词与词云绘制 278
11.3.1全文分词 278
11.3.2统计词频与长度 279
11.3.3绘制高频词图 279
11.3.4词云绘制 280
任务11.4 关系网络探索 280
11.4.1 计算段落权重 280
11.4.2 绘制人物关系图 282
任务11.5 聚类分析 283
11.5.1计算tf-idf得到词向量矩阵 283
11.5.2获得所有特征项 284
11.5.3 k均值聚类 284
11.5.4 聚类结果可视化 285
11.5.5 层次聚类 285
单元12 基于大数据可视化的城市通勤特征分析研究 287
任务12.1 案例背景概述 287
12.1.1项目目标 287
12.1.2相关背景知识 287
任务12.2 原始数据预处理 287
12.2.1数据的载入 288
12.2.2站点信息处理 289
12.2.3地铁刷卡记录处理 290
12.2.4 合并通勤记录 291
12.2.5 虚拟换乘站点数据合并 292
任务12.3 词云图的绘制 295
12.3.1载入数据 295
12.3.2 设置文字云图各项参数 296
12.3.3 绘制词云图 296
任务12.4 绘制起终点分布连线图 296
12.4.1 载入数据 296
12.4.2 统计频数并筛选 296
12.4.3 完成绘图 296
任务12.5 绘制早高峰地铁刷卡进出站分布图 296
12.5.1载入数据 296
12.5.2统计出入站的频次 296
12.5.3设置图形选项参数并画图 296
任务12.6职住地识别与城市规划对比分析 296
12.6.1载入数据 296
12.6.2统计居住地和工作地的出入站频次 296
12.6.3进行区域中心分析 296
任务13.1 案例背景概述 312
13.1.1项目目标 312
13.1.2相关背景知识 312
任务13.2 网络数据爬取 312
13.2.1查看要爬取的网页结构 312
13.2.2提取此网页中的新闻标题 313
任务13.3 中文文本处理 314
13.3.1中文分词 315
13.3.2将分词后得到的词组转换为向量 316
任务13.4 机器学习做情感分析 318
13.4.1 样本拆分 318
13.4.2 模型训练与评价 318
任务13.5 作词云图 321
13.5.1载入数据 321
13.5.2分词 321
13.5.3绘制词云图 322

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

永洪 常州信息职业技术学院大数据技术专业负责人,具有丰富大数据技术专业相关教学和科研工作经验,为国家级教学团队成员、国家级职业教育教师教学创新团队成员、江苏省高校“青蓝工程”优秀青年骨干教师、江苏省优秀毕业设计团队指导老师;参与国家精品资源共享课、国家在线开放课、软件技术专业国家教学资源库、省在线开放课程等建设;获江苏省教学成果一等奖一项、二等奖一项。主要讲授大数据分析处理、数据库管理与应用、C#应用开发、UML建模与设计模式、Web前端开发等课程;参与编写国家规划教材《软件开发与项目管理》、《信息技术基础》,主编高职高专规划教材《XML案例教材》,主编常州信息职业技术学院精品教材《.NET Web应用开发》。

相关图书

人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部