Python大数据分析与挖掘实战(微课版 第2版)

以应用为导向,在介绍了Python基础、数据分析和数据可视化、机器学习、集成学习和深度学习等基本知识
分享 推荐 0 收藏 17 阅读 1.5K
黄恒秋 (作者) 978-7-115-66574-4

关于本书的内容有任何问题,请联系 许金霞

1.以应用为导向,在介绍了Python基础、数据分析和数据可视化、机器学习、集成学习和深度学习等基本知识。
2.每章对应一个综合案例,提供了覆盖金融、地理信息、交通、文本分析、图像识别5个领域的典型应用案例。
3.配套了若干个实验关卡内容,线上基于头歌实践教学平台,集电子材料、视频、实验、在线编程环境、教学与实验管理于一体,实验采用游戏式闯关设计,可自动测评和收集详细的实验行为数据,支持手机、电脑等终端,可用于混合式或SPOC课堂等形式的创新教学。

内容摘要

本书以应用为导向,将理论与实践相结合,深入浅出地介绍了利用Python进行大数据分析与挖掘的基本知识,以及如何将其应用到具体领域的方法。 本书分为基础篇、案例篇和附录三个部分。基础篇(第1章~第8章)主要介绍Python基础知识及应用于科学计算、数据处理、数据可视化、特征工程、机器学习、集成学习、深度学习等方面的基础知识;案例篇(第9章~第14章)主要介绍利用Python进行金融、地理信息、交通、文本分析、图像识别等领域大数据分析与挖掘的案例,以及基于大语言模型的应用开发案例;附录介绍了线上如何开展实验教学的使用方法及应用举例,以帮助读者提高实践应用能力和提升教师实践教学质量。本书提供课件PPT、数据和程序、微课视频、实验内容、线上实验教学平台和线下实验教学资源等丰富的配套资源。

目录

基础篇
第1章  Python基础 2
1.1 Python概述 2
1.2 Python安装及启动 2
1.2.1 Python安装 2
1.2.2 Python启动及界面认识 4
1.2.3 Python安装扩展包 8
1.3 Python基本数据类型 9
1.3.1 数值的定义 9
1.3.2 字符串的定义 9
1.3.3 列表的定义 10
1.3.4 元组的定义 10
1.3.5 集合的定义 10
1.3.6 字典的定义 10
1.3.7 列表、元组、集合与字典之间的比较 11
1.4 Python相关的公有方法 11
1.4.1 索引 11
1.4.2 切片 12
1.4.3 求长度 12
1.4.4 统计 13
1.4.5 成员身份确认 13
1.4.6 变量删除 13
1.5 列表、元组与字符串方法 13
1.5.1 列表方法 13
1.5.2 元组方法 15
1.5.3 字符串方法 16
1.6 字典方法 17
1.6.1 创建字典:dict() 17
1.6.2 获取字典值:get() 17
1.6.3 字典赋值:setdefault() 17
1.7 条件语句 18
1.7.1 if…语句 18
1.7.2 if…else…语句 18
1.7.3 if…elif…else…语句 18
1.8 循环语句 19
1.8.1 while语句 19
1.8.2 for循环 19
1.9 函数 20
1.9.1 无返回值函数的定义与调用 20
1.9.2 有返回值函数的定义与调用 20
1.9.3 有多个返回值函数的定义与调用 21
本章小结 21
本章练习 21
第2章 科学计算包NumPy 23
2.1 NumPy简介 23
2.2 创建数组 24
2.2.1 利用array()函数创建数组 24
2.2.2 利用内置函数创建数组 25
2.3 数组尺寸 25
2.4 数组运算 26
2.5 数组切片 27
2.5.1 常见的数组切片方法 27
2.5.2 利用ix_()函数进行数组切片 28
2.6 数组连接 29
2.7 数据存取 29
2.8 数组形态变换 30
2.9 数组排序与搜索 31
2.10 矩阵与线性代数运算 31
2.10.1 创建NumPy矩阵 32
2.10.2 矩阵的属性和基本运算 32
2.10.3 线性代数运算 33
本章小结 35
本章练习 35
第3章  数据处理包Pandas 36
3.1 Pandas简介 36
3.2 序列 37
3.2.1 序列创建及访问 37
3.2.2 序列属性 37
3.2.3 序列方法 38
3.2.4 序列切片 39
3.2.5 序列聚合运算 40
3.3 数据框 40
3.3.1 数据框创建 40
3.3.2 数据框属性 41
3.3.3 数据框方法 41
3.3.4 数据框切片 44
3.4 外部文件读取 45
3.4.1 Excel文件读取 45
3.4.2 TXT文件读取 46
3.4.3 CSV文件读取 47
本章小结 47
本章练习 48
第4章  数据可视化包Matplotlib 49
4.1 Matplotlib绘图基础 49
4.1.1 Matplotlib图像构成 49
4.1.2 Matplotlib绘图基本流程 49
4.1.3 中文字符显示 51
4.1.4 坐标轴字符刻度标注 52
4.2 Matplotlib常用图形绘制 54
4.2.1 散点图 54
4.2.2 线性图 55
4.2.3 柱状图 56
4.2.4 直方图 57
4.2.5 饼图 58
4.2.6 箱线图 58
4.2.7 子图 59
本章小结 62
本章练习 62
第5章  数据预处理与特征工程 63
5.1 重复数据处理 63
5.2 数据的合并与关联 63
5.2.1 基于数据框的合并 63
5.2.2 基于数据框的关联 64
5.3 时间格式处理与日期元素提取 65
5.3.1 时间处理函数 65
5.3.2 时间元素提取 65
5.4 映射与离散化 66
5.5 滚动计算与分组统计计算 68
5.5.1 滚动计算 68
5.5.2 分组统计计算 68
5.6 样本均衡处理 70
5.6.1 过抽样 70
5.6.2 欠抽样 71
5.7 缺失值处理 71
5.7.1 单变量插值填充 72
5.7.2 多变量插值填充 73
5.7.3 K最近邻插值填充 74
5.8 数据规范化 76
5.8.1 均值-方差规范化 76
5.8.2 极差规范化 77
5.9 特征组合与特征选择 78
5.9.1 基于主成分分析的特征组合 78
5.9.2 特征选择 83
本章小结 88
本章练习 88
第6章  机器学习与实现 90
6.1 线性回归 90
6.1.1 一元线性回归 90
6.1.2 多元线性回归 91
6.1.3 Python线性回归应用举例 93
6.2 逻辑回归 94
6.2.1 逻辑回归模型 94
6.2.2 Python逻辑回归模型应用举例 95
6.3 神经网络 96
6.3.1 神经网络模拟思想 96
6.3.2 神经网络结构及数学模型 97
6.3.3 Python神经网络分类应用举例 98
6.3.4 Python神经网络回归应用举例 99
6.4 支持向量机 100
6.4.1 支持向量机原理 100
6.4.2 Python支持向量机应用举例 101
6.5 K-均值聚类 102
6.5.1 K-均值聚类的基本原理 103
6.5.2 Python K-均值聚类算法应用举例 105
6.6 关联规则 107
6.6.1 关联规则概念 108
6.6.2 布尔关联规则挖掘 109
6.6.3 一对一关联规则挖掘及Python实现 109
本章小结 111
本章练习 111
第7章  集成学习与实现 115
7.1 集成学习的概念 115
7.1.1 集成学习的基本原理 115
7.1.2 个体学习器对集成学习模型性能的影响 116
7.1.3 集成学习的结合策略 117
7.1.4 集成学习的类型 117
7.2 Bagging算法 118
7.2.1 Bagging算法的基本原理 118
7.2.2 Bagging算法的Sklearn实现 118
7.2.3 Bagging算法的应用举例 118
7.3 随机森林算法 120
7.3.1 随机森林算法的基本原理 120
7.3.2 随机森林算法的Sklearn实现 120
7.3.3 Python随机森林算法的应用举例 121
7.4 Boosting算法 122
7.5 AdaBoost算法 122
7.5.1 AdaBoost算法的基本原理 122
7.5.2 AdaBoost算法的Sklearn实现 123
7.5.3 AdaBoost算法的应用举例 124
7.6 GBDT算法 125
7.6.1 GBDT算法的基本原理 125
7.6.2 GBDT算法的Sklearn实现 126
7.6.3 GBDT算法的应用举例 126
7.7 XGBoost算法 128
7.7.1 XGBoost算法的基本原理 128
7.7.2 XGBoost算法的Sklearn实现 128
7.7.3 XGBoost算法的应用举例 128
本章小结 130
本章练习 130
第8章  深度学习与实现 131
8.1 深度学习 131
8.2 深度学习框架 131
8.2.1 PyTorch框架 132
8.2.2 PaddlePaddle框架 132
8.2.3 TensorFlow框架 132
8.3 TensorFlow基础 132
8.3.1 TensorFlow安装 132
8.3.2 TensorFlow命令简介 133
8.3.3 TensorFlow案例 135
8.4 多层神经网络 137
8.4.1 多层神经网络结构及数学模型 138
8.4.2 多层神经网络分类问题应用举例 139
8.4.3 多层神经网络回归问题应用举例 143
8.5 卷积神经网络 148
8.5.1 卷积层计算 149
8.5.2 池化层计算 150
8.5.3 全连接层计算 151
8.5.4 CNN应用案例 152
8.6 循环神经网络 156
8.6.1 RNN结构及数学模型 156
8.6.2 长短期记忆网络 157
8.6.3 RNN应用案例 158
本章小结 160
本章练习 160
案例篇
第9章  基于财务与交易数据的量化投资分析 162
9.1 案例背景 162
9.2 案例目标及实现思路 162
9.3 基于总体规模与投资效率指标的上市公司综合评价 163
9.3.1 指标选择 163
9.3.2 数据获取 164
9.3.3 数据处理 165
9.3.4 主成分分析 165
9.3.5 综合排名 165
9.4 技术分析指标选择与计算 166
9.4.1 移动平均线指标 166
9.4.2 指数平滑异同平均线指标 167
9.4.3 随机指标 167
9.4.4 相对强弱指标 168
9.4.5 乖离率指标 168
9.4.6 能量潮指标 169
9.4.7 涨跌趋势指标 169
9.4.8 计算举例 170
9.5 量化投资模型与策略实现 172
9.5.1 投资组合构建 172
9.5.2 基于逻辑回归的量化投资策略实现 172
本章小结 175
本章练习 175
第10章  众包任务定价优化方案 176
10.1 案例背景 176
10.2 案例目标及实现思路 177
10.3 数据获取与探索 177
10.3.1 Folium地理信息可视化包安装 177
10.3.2 数据读取与地图可视化 177
10.4 指标计算 178
10.4.1 指标设计 178
10.4.2 指标计算方法 179
10.4.3 程序实现 179
10.5 任务定价模型构建 184
10.5.1 指标数据预处理 184
10.5.2 多元线性回归模型 186
10.5.3 神经网络模型 187
10.6 方案评价 187
10.6.1 任务完成增量 187
10.6.2 成本增加额 188
10.6.3 完整实现代码 188
本章小结 190
本章练习 190
第11章  地铁站点日客流量预测 191
11.1 案例背景 191
11.2 案例目标及实现思路 192
11.3 数据获取与探索 192
11.3.1 二分法查找思想 193
11.3.2 每日数据索引范围提取 193
11.4 指标计算 194
11.4.1 指标设计 194
11.4.2 指标计算方法 194
11.4.3 程序实现 194
11.5 数据可视化 197
11.6 因素分析 200
11.6.1 非节假日—三次指数平滑 200
11.6.2 工作日—三次指数平滑 202
11.6.3 因素分析结果 205
11.7 神经网络预测模型的建立 206
11.7.1 示例站点客流量预测 206
11.7.2 全部站点客流量预测 207
11.7.3 模型预测结果分析 208
本章小结 209
本章练习 209
第12章  微博文本情感分析 210
12.1 案例背景 210
12.2 案例目标及实现思路 210
12.3 数据预处理过程 211
12.3.1 数据读取 211
12.3.2 分词 211
12.3.3 去停用词 212
12.3.4 词向量 213
12.3.5 划分数据集 215
12.4 朴素贝叶斯分类模型 215
12.5 随机森林模型 216
12.6 梯度提升决策树模型 216
12.7 基于LSTM网络的分类模型 217
本章小结 219
本章练习 219
第13章  基于水色图像的水质评价 220
13.1 案例背景 220
13.2 案例目标及实现思路 220
13.3 数据获取与探索 221
13.4 支持向量机分类识别模型 222
13.4.1 颜色特征计算方法 222
13.4.2 自变量与因变量计算 223
13.4.3 模型实现 224
13.5 卷积神经网络分类识别模型:灰图 225
13.5.1 数据处理 225
13.5.2 模型实现 226
13.6 卷积神经网络识别模型:彩图 228
13.6.1 数据处理 228
13.6.2 模型实现 230
本章小结 231
本章练习 231
第14章  大模型技术与应用案例 232
14.1 大模型基本认识 232
14.2 大模型开发环境搭建:基于Python和TensorFlow 233
14.3 大模型基础知识:基于BERT开源大语言模型 234
14.3.1 BERT基本概念 234
14.3.2 BERT输入 235
14.3.3 BERT输出 236
14.3.4 BERT特征提取与文本相似度计算 237
14.3.5 BERT下游微调任务之分类 237
14.3.6 BERT下游微调任务之问答 238
14.3.7 BERT下游微调模型保存与加载 239
14.4 应用案例1:基于BERT模型的上市公司新闻标题情感分类 239
14.4.1 案例介绍 239
14.4.2 BERT模型输入参数及分类标签构造 240
14.4.3 BERT微调模型的训练集、验证集和测试集构造 241
14.4.4 BERT微调模型编译、训练与保存 241
14.4.5 BERT微调模型加载及应用 242
14.5 应用案例2:DeepSeek-V3/R1应用实例 242
14.5.1 DeepSeek Python SDK与OpenAI接口包安装 242
14.5.2 DeepSeek-V3调用实例 243
14.5.3 DeepSeek-R1调用实例 244
14.6 应用案例3:百度千帆大模型平台及应用实例 244
14.6.1 千帆平台Python SDK安装 245
14.6.2 千帆平台安全认证AK/SK鉴权 245
14.6.3 文心大语言模型应用实例 245
14.6.4 千帆平台接入的Fuyu-8B模型应用实例:图生文 246
14.6.5 千帆平台接入的Stable-Diffusion-XL模型应用实例:文生图 247
14.7 应用案例4:基于大模型的AI作画与Streamlit Web可视化应用开发 247
14.7.1 Streamlit开发环境搭建 247
14.7.2 主体页面设计 248
14.7.3 主体页面程序实现 249
14.7.4 绘图事件函数定义 250
14.7.5 本地开发 251
14.7.6 Streamlit Web应用部署 252
本章练习 254
附录 线上实验指导 255
参考文献 258

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

黄恒秋 2011.7-2014.6 就职于深圳市国泰安信息技术有限公司,从事CSMAR数据库分析师、软件策划及设计相关工作 2014.9-今 广西民族师范学院数学与计算机科学学院专任教师,从事数据分析与挖掘、数学建模、Python语言、MATLAB语言、高等数学相关课程教学工作。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部