人工智能与大数据技术精品系列教材

Python数据分析与应用(第3版)(微课版)

“十四五”职业教育国家规划教材
分享 推荐 0 收藏 34 阅读 2.2K
曾文权 , 张良均 (主编) 齐虎春 , 赵静 , 宿宏毅 (副主编) 978-7-115-67323-7

关于本书的内容有任何问题,请联系 初美呈

国规教材,权威遴选值得信赖:本书入“十四五”职业教育国家规划教材,紧扣职业教育发展方向,深度服务“新工科”与“数字化人才”培养需求,权威性与实用性兼备。
项目式设计,全面升级实战能力:以“环境保护”“粮食产量分析”“线上书籍网站可视化”等真实数据为驱动,构建8大项目任务,贯穿Python核心技术与行业应用,夯实学生数据分析实战基础。
配套Python 3.11与Anaconda 2024,紧贴行业主流环境:全面适配当前主流Python开发生态,帮助学生对接企业真实应用场景,提升职业胜任力。
产教融合,打造“课岗赛证”一体化教材:由企业专家联合一线教师共同编写,紧扣职业能力标准,适配职业院校课程体系建设与数字化改革方向。
畅销三版,广受职业院校师生好评:第3版在内容结构与案例深度上全面升级,持续获得一线教师和学生高度认可。

特别说明

本书为《Python数据分析与应用(第2版)(微课版)》的国规改版(职教版)
第3版与第2版的区别
结合近几年Python的发展情况和广大读者的反馈意见,本书在保留第2版特色的基础上进行了全面的升级。第3版修订的主要内容如下。
⭐体裁由章节任务式结构调整为项目任务式结构。
⭐将Python由Python 3.8.5升级为Python 3.11.7,将Anaconda由Anaconda3 2020.11升级为Anaconda3 2024.02-1。
⭐全书补充素养目标。
⭐项目5中删除对分类散点图、线性回归拟合图绘制方法的介绍。
⭐新增项目6“线上书籍网站数据可视化分析”。
⭐将第2版的第6章调整为项目7。
⭐删除第2版中的第7章“竞赛网站用户行为分析”、第8章“企业所得税预测分析”。
⭐将第2版的第9章调整为项目8,并增加案例的难度,添加聚类分析的内容。
⭐将第2版的第10章调整为项目9。
⭐项目3、项目5更换部分【知识准备】的示例及数据。
⭐项目2、项目3、项目4、项目5、项目7新增贯穿性知识点以突出项目导向。
⭐项目2、项目3、项目4、项目5、项目7的课后习题中补充覆盖所学知识点的实践题。

内容摘要

本书以项目为导向,全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全书共9个项目,项目1介绍数据分析的概念等相关知识;项目2~5、项目7介绍Python数据分析的常用库及其应用,涵盖NumPy数组计算基础,pandas统计分析基础,使用pandas进行数据预处理,Matplotlib、seaborn、pyecharts数据可视化基础,以及使用scikit-learn构建模型,较为全面地阐述Python数据分析方法;项目6、项目8结合已介绍的数据分析技术进行企业综合案例的数据分析;项目9基于去编程化的TipDM大数据挖掘建模平台实现客户流失预测。除项目1,本书各项目都包含项目实训与课后习题,读者可以进行练习和操作实践,巩固所学的内容。
本书可以作为职业院校大数据技术相关专业的教材和大数据技术爱好者的自学参考书。

目录

任务1.1 认识数据分析 2
【知识准备】 2
1.1.1 掌握数据分析的概念 2
1.1.2 掌握数据分析的流程 3
1.1.3 了解数据分析的应用场景 5
任务1.2 熟悉Python数据分析的工具 6
【知识准备】 6
1.2.1 了解数据分析常用工具 6
1.2.2 了解Python在数据分析领域的优势 7
1.2.3 了解Python数据分析常用库 7
任务1.3 安装Python的Anaconda发行版 9
【任务描述】 9
【任务分析】 9
【知识准备】 9
了解Python的Anaconda发行版 9
【任务实现】 10
在Windows系统中安装Anaconda 10
任务1.4 掌握Jupyter Notebook常用功能 12
【知识准备】 12
1.4.1 掌握Jupyter Notebook的基本功能 12
1.4.2 掌握Jupyter Notebook的高级功能 14
项目小结 17
课后习题 17

项目2 粮食产量分析——NumPy数组计算基础 19
任务2.1 创建包含年份和粮食产量数据的数组 20
【任务描述】 20
【任务分析】 21
【知识准备】 21
2.1.1 创建数组对象 21
2.1.2 生成随机数 27
2.1.3 通过索引访问数组 29
2.1.4 变换数组的形状 31
【任务实现】 34
任务2.2 分析粮食产量变化情况 36
【任务描述】 36
【任务分析】 36
【知识准备】 36
2.2.1 创建NumPy矩阵 36
2.2.2 ufunc 38
【任务实现】 42
任务2.3 对粮食产量数据进行统计分析 43
【任务描述】 43
【任务分析】 44
【知识准备】 44
2.3.1 读/写文件 44
2.3.2 使用函数进行简单的统计分析 46
【任务实现】 51
项目小结 53
项目实训 53
实训1 使用数组比较运算对比超市牛奶价格 53
实训2 创建6×6的简单数独游戏矩阵 53
课后习题 54

项目3 工业产品产量统计分析——pandas统计分析基础 56
任务3.1 读取工业产品产量数据 58
【任务描述】 58
【任务分析】 58
【知识准备】 58
3.1.1 认识pandas库 58
3.1.2 读/写文本文件 59
3.1.3 读/写Excel文件 62
3.1.4 读/写数据库数据 64
【任务实现】 67
读取工业产品产量数据 67
任务3.2 分析工业产品产量数据的基本情况 67
【任务描述】 67
【任务分析】 67
【知识准备】 68
3.2.1 查看DataFrame的基本属性 68
3.2.2 查、改、增、删DataFrame数据 69
3.2.3 对DataFrame进行描述性统计 75
【任务实现】 78
任务3.3 分析一定时间周期内工业产品产量变化情况 79
【任务描述】 79
【任务分析】 79
【知识准备】 79
3.3.1 转换时间字符串为标准的日期时间格式 79
3.3.2 提取时间数据 82
3.3.3 加减时间数据 83
【任务实现】 84
任务3.4 工业产品产量数据统计分析 85
【任务描述】 85
【任务分析】 85
【知识准备】 86
3.4.1 使用groupby()方法拆分数据 86
3.4.2 使用agg()方法聚合数据 88
3.4.3 使用apply()方法聚合数据 90
3.4.4 使用transform()方法聚合数据 91
【任务实现】 92
项目小结 95
项目实训 95
实训1 读取并查看某地区房屋销售数据的基本信息 95
实训2 提取房屋售出时间信息并描述房屋价格信息 96
实训3 使用分组聚合方法分析房屋销售情况 96
课后习题 97

项目4 电商产品销售数据预处理——使用pandas进行数据预处理 99
任务4.1 合并订单信息数据和商品信息数据 100
【任务描述】 100
【任务分析】 101
【知识准备】 101
4.1.1 堆叠合并数据 101
4.1.2 主键合并数据 104
4.1.3 重叠合并数据 106
【任务实现】 107
合并订单信息数据和商品信息数据 107
任务4.2 清洗电商产品销售数据 108
【任务描述】 108
【任务分析】 108
【知识准备】 109
4.2.1 检测与处理重复值 109
4.2.2 检测与处理缺失值 112
4.2.3 检测与处理异常值 115
【任务实现】 117
任务4.3 标准化电商产品销售数据 120
【任务描述】 120
【任务分析】 121
【知识准备】 121
4.3.1 离差标准化数据 121
4.3.2 标准差标准化数据 121
4.3.3 小数定标标准化数据 122
【任务实现】 123
对商品售出价格进行标准差标准化 123
任务4.4 变换电商产品销售数据 124
【任务描述】 124
【任务分析】 124
【知识准备】 124
4.4.1 哑变量处理类别型数据 124
4.4.2 离散化连续型数据 125
【任务实现】 128
项目小结 131
项目实训 131
实训1 合并年龄、平均血糖和中风患者信息数据 131
实训2 删除年龄异常的数据 132
实训3 离散化“年龄/岁”特征 132
课后习题 132

项目5 电商销售可视化分析——Matplotlib、seaborn、pyecharts数据可视化基础 135
任务5.1 用户性别、年龄构成及订单数量变化分析 137
【任务描述】 137
【任务分析】 137
【知识准备】 137
5.1.1 熟悉pyplot绘图基础语法与常用参数 137
5.1.2 使用Matplotlib绘制进阶图形 143
【任务实现】 153
任务5.2 用户年龄特征与电商行为分析 155
【任务描述】 155
【任务分析】 155
【知识准备】 156
5.2.1 熟悉seaborn绘图基础 156
5.2.2 使用seaborn绘制基础图形 173
【任务实现】 174
分析商品售出价格和用户年龄的关系 174
任务5.3 年龄段、用户地区和商品偏好分析 175
【任务描述】 175
【任务分析】 175
【知识准备】 175
5.3.1 熟悉pyecharts绘图基础 175
5.3.2 使用pyecharts绘制交互式图形 180
【任务实现】 185
项目小结 188
项目实训 189
实训1 分析学生考试成绩特征的分布与分散情况 189
实训2 分析学生考试成绩与各个特征之间的关系 189
实训3 分析各空气质量指数之间的相关关系 190
实训4 绘制交互式图形 191
课后习题 191

项目6 线上书籍网站数据可视化分析 194
任务6.1 了解线上书籍网站数据可视化分析的背景和方法 195
【知识准备】 195
6.1.1 了解线上书籍网站数据可视化分析的背景 195
6.1.2 认识可视化分析 196
6.1.3 线上书籍网站数据可视化分析的步骤与流程 196
任务6.2 线上书籍网站数据预处理 197
【任务描述】 197
【任务分析】 197
【任务实现】 197
6.2.1 检测与处理缺失值 197
6.2.2 检测重复值 198
6.2.3 变换数据的格式和类型 199
任务6.3 线上书籍网站数据可视化分析 200
【任务描述】 200
【任务分析】 200
【任务实现】 200
6.3.1 绘制Top5出版社书籍数量占比饼图 200
6.3.2 绘制书籍价格区间分布柱形图 201
6.3.3 绘制不同类型评论数量关系热力图 202
6.3.4 绘制2014年—2023年书籍数量和书籍评分3D散点图 203
6.3.5 撰写线上书籍网站数据可视化分析报告 204
项目小结 206
项目实训 206
超市销售数据可视化分析 206
课后习题 207

项目7 线上书籍网站数据综合分析——使用scikit-learn构建模型 209
任务7.1 使用sklearn转换器处理线上书籍网站数据 211
【任务描述】 211
【任务分析】 211
【知识准备】 211
7.1.1 加载datasets模块中的数据集 211
7.1.2 将数据集划分为训练集和测试集 213
7.1.3 使用sklearn转换器进行数据预处理 214
【任务实现】 217
任务7.2 构建基于线上书籍网站数据的聚类模型 218
【任务描述】 218
【任务分析】 219
【知识准备】 219
7.2.1 使用sklearn估计器构建聚类模型 219
7.2.2 评价聚类模型 222
【任务实现】 224
任务7.3 构建基于线上书籍网站数据的分类模型 226
【任务描述】 226
【任务分析】 226
【知识准备】 226
7.3.1 使用sklearn估计器构建分类模型 226
7.3.2 评价分类模型 228
【任务实现】 230
任务7.4 构建基于线上书籍网站数据的回归模型 234
【任务描述】 234
【任务分析】 234
【知识准备】 234
7.4.1 使用sklearn估计器构建线性回归模型 234
7.4.2 评价回归模型 237
【任务实现】 238
项目小结 241
项目实训 241
实训1 使用sklearn处理竞标行为数据集 241
实训2 构建基于竞标行为数据集的k-means聚类模型 242
实训3 构建基于竞标行为数据集的支持向量机分类模型 243
实训4 构建基于竞标行为数据集的回归模型 243
课后习题 243

项目8 餐饮企业综合分析 246
任务8.1 了解餐饮企业综合分析的背景和方法 248
【知识准备】 248
8.1.1 了解餐饮企业综合分析的背景 248
8.1.2 认识餐饮企业综合分析 249
8.1.3 餐饮企业综合分析的步骤与流程 249
任务8.2 预处理餐饮企业数据 250
【任务描述】 250
【任务分析】 250
【任务实现】 250
任务8.3 使用k-means聚类算法进行餐饮企业客户分群 256
【任务描述】 256
【任务分析】 257
【知识准备】 257
了解k-means聚类算法 257
【任务实现】 258
任务8.4 使用决策树算法和支持向量机算法进行餐饮企业客户流失预测 261
【任务描述】 261
【任务分析】 261
【知识准备】 261
8.4.1 了解决策树算法 261
8.4.2 了解支持向量机算法 263
【任务实现】 264
预测餐饮企业客户流失 264
项目小结 266
项目实训 266
实训1 构建支持向量机分类模型预测客户服装尺寸 266
实训2 构建k-means聚类模型进行某App用户分群 267
实训3 构建线性回归模型预测二手汽车价格 269
课后习题 270

项目9 基于TipDM大数据挖掘建模平台实现客户流失预测 274
任务9.1 TipDM大数据挖掘建模平台简介 275
【知识准备】 275
9.1.1 共享库 277
9.1.2 数据连接 277
9.1.3 数据集 277
9.1.4 我的工程 278
9.1.5 个人组件 281
任务9.2 使用平台实现客户流失预测 281
【任务描述】 281
【任务分析】 281
【任务实现】 281
9.2.1 使用平台配置客户流失预测案例的步骤和流程 281
9.2.2 数据源配置 282
9.2.3 数据预处理 284
9.2.4 构建模型 289
项目小结 294
项目实训 294
预测客户服装尺寸 294
课后习题 294

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

曾文权,教授,广东科学技术职业学院副校长,全国工信行指委计算机分委会委员、中国计算机学会职业教育发展委员会副主席、国家教学名师;获国家教学成果奖1项、省级教学成果奖3项;主持国家和省级教科研项目20余项、主编出版专著1部、教材8部,发表论文30余篇。

同系列书

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部