数据挖掘原理、算法与应用 (Python语言描述)

数据挖掘
分享 推荐 0 收藏 6 阅读 1.2K
刘吉华 (著) 978-7-115-64196-0

关于本书的内容有任何问题,请联系 孙澍

1.内容系统全面,内容涵盖原理、算法到应用。
2.基于Python语言,结合管理与经济的真实数据案例。理论结合应用,是学生更好掌握数据挖掘技术内涵。。
4.重难点注释详尽,帮助学生充分理解案例代码。

内容摘要

本书系统地介绍了数据挖掘算法、原理及基于Python的实现方法,将算法原理与案例相结合,帮助读者建立数据挖掘领域的理论基础,提升基本的实践技能。本书共15章,主要包括数据挖掘概述、Python环境的搭建、数据预处理、数据集划分与交叉验证评分、回归、分类、集成学习、参数调优、降维、特征选择与特征联合、流水线、聚类、关联规则、PageRank算法、人工神经网络。 本书可作为高校大数据技术、大数据管理与应用等相关专业的教材,也可以作为数据挖掘、数据分析相关爱好者的自学用书。

目录

目 录
第1章 数据挖掘概述 1
1.1 数据挖掘简介 1
1.1.1 数据挖掘的定义与目标 1
1.1.2 数据挖掘的应用 2
1.1.3 数据挖掘的算法 2
1.1.4 数据挖掘的相关概念 3
1.1.5 数据挖掘的流程 4
1.2 常用的数据挖掘工具 5
1.2.1 SAS Data Mining 5
1.2.2 RapidMiner 5
1.2.3 IBM SPSS Modeler 6
1.2.4 Oracle Data Mining 6
1.2.5 Apache Spark 7
1.2.6 R 8
1.2.7 Python数据挖掘工具包 8
1.3 常用数据集 9
1.3.1 常用数据集网站 9
1.3.2 Python工具包提供的数据集 11
小 结 14
课后习题 14
第2章 Python环境的搭建 15
2.1 Python的安装与配置 15
2.1.1 Python的安装 15
2.1.2 Python第三方包的管理 16
2.2 Jupyter Notebook的安装与配置 17
2.2.1 Jupyter Notebook的安装 17
2.2.2 Jupyter Notebook的配置 17
2.2.3 Jupyter Notebook的使用 19
2.3 JupyterLab的安装与配置 21
2.3.1 JupyterLab的安装 21
2.3.2 JupyterLab的使用 22
2.3.3 插件的安装 23
2.4 JupyterHub的安装与配置 23
2.4.1 JupyterHub的安装 24
2.4.2 JupyterHub的配置 24
2.4.3 JupyterHub的启动与管理 24
2.5 Anaconda的安装与配置 25
2.5.1 Anaconda及相关包的安装 26
2.5.2 Anaconda的配置与使用 27
小 结 28
课后习题 28
第3章 数据预处理 29
3.1 缺失值处理 29
3.1.1 填补法 30
3.1.2 删除法 32
3.2 数据标准化 33
3.2.1 Z-Score标准化 33
3.2.2 Min-Max标准化 35
3.2.3 RobustScaler标准化 35
3.2.4 sklearn中标准化对象的
方法 36
3.3 特征编码 36
3.3.1 用map函数编码 36
3.3.2 标签编码 37
3.3.3 独热编码 37
3.3.4 哑元编码 38
3.3.5 离散化 38
3.4 离群值检测与处理 39
3.4.1 3σ法 40
3.4.2 箱线图法 40
3.4.3 基于近邻检测离群值法 41
3.4.4 聚类法 42
3.4.5 基于模型检测法 42
3.4.6 离群值处理 42
3.5 案例:加拿大轻型汽车燃料消耗
等级和二氧化碳排放量数据集预
处理 42
小 结 55
课后习题 55
第4章 数据集划分与交叉验证评分 56
4.1 数据集划分 56
4.1.1 train_test_split()方法 57
4.1.2 K折交叉划分法 58
4.1.3 分层K折交叉划分法 59
4.1.4 乱序K次划分法 60
4.1.5 留一法 60
4.1.6 留P法 60
4.1.7 自助法 61
4.2 交叉验证评分 62
4.3 案例:房价数据集划分 62
小 结 68
课后习题 68
第5章 回归 69
5.1 回归分析 69
5.1.1 线性回归 70
5.1.2 非线性回归 75
5.2 回归模型评价 78
5.2.1 决定系数 78
5.2.2 均方误差 79
5.2.3 平均绝对误差 79
5.2.4 其他评价方法 79
5.3 案例:波士顿房价预测 80
小 结 84
课后习题 85
第6章 分类 86
6.1 分类算法 86
6.1.1 逻辑回归 87
6.1.2 K近邻 87
6.1.3 决策树 88
6.1.4 朴素贝叶斯 91
6.1.5 支持向量机 93
6.2 分类模型评价 95
6.2.1 常用评价指标 95
6.2.2 P-R曲线 96
6.2.3 ROC曲线 97
6.3 案例:汽车满意度预测 99
小 结 107
课后习题 107
第7章 集成学习 108
7.1 装袋法 108
7.1.1 将装袋法用于解决分类
问题 109
7.1.2 将装袋法用于解决回归
问题 110
7.1.3 随机森林 111
7.2 提升法 112
7.2.1 自适应提升分类算法 112
7.2.2 梯度提升树 113
7.2.3 极致梯度提升 115
7.3 堆叠法 116
7.4 投票法 117
7.5 案例:通过随机森林实现鸢尾花
分类 118
小 结 120
课后习题 120
第8章 参数调优 121
8.1 人工循环搜索 121
8.2 网格搜索 122
8.3 随机搜索 123
8.4 贝叶斯搜索 124
8.5 案例:汽车满意度预测模型参数
调优 125
小 结 129
课后习题 129
第9章 降维 130
9.1 矩阵分解降维 130
9.1.1 主成分分析 131
9.1.2 核PCA 132
9.1.3 非负矩阵分解 132
9.1.4 因子分析 133
9.1.5 独立主成分分析 134
9.2 判别分析 134
9.2.1 线性判别分析 134
9.2.2 二次判别分析 136
9.3 基于流形学习的数据降维
方法 137
9.3.1 局部线性嵌入 138
9.3.2 多维尺度变换 139
9.3.3 t分布随机邻域嵌入 141
9.4 案例:Fashion-MNIST数据集的
降维与可视化 143
小 结 149
课后习题 149
第10章 特征选择与特征联合 150
10.1 特征选择 150
10.1.1 过滤法 150
10.1.2 装袋法 154
10.1.3 嵌入法 155
10.2 案例:对中学教育学生成绩
数据集进行特征选择 156
10.3 多项式特征 160
10.4 案例:为同心圆数据集构建
多项式特征 160
10.5 特征联合 161
10.6 案例:基于波士顿房价数据集
实现特征联合 162
小 结 164
课后习题 164
第11章 流水线 166
11.1 流水线结构 166
11.2 预处理流水线 167
11.3 带学习器的流水线 168
11.4 采用网格搜索寻找流水线中
模型的最优参数 168
11.5 采用网格搜索选择流水线中的
模型 168
11.6 复杂流水线 169
11.7 案例:乳腺癌数据集的分类
模型的选择 170
小 结 172
课后习题 172
第12章 聚类 173
12.1 样本距离计算 173
12.1.1 欧氏距离 173
12.1.2 曼哈顿距离 174
12.1.3 切比雪夫距离 174
12.1.4 闵可夫斯基距离 175
12.1.5 余弦相似度 175
12.1.6 相关距离 175
12.1.7 杰卡德距离 176
12.1.8 汉明距离 177
12.2 常用的聚类方法 177
12.2.1 K均值聚类 178
12.2.2 层次聚类 180
12.2.3 带噪声的基于密度的聚类 182
12.2.4 均值漂移聚类 183
12.2.5 谱聚类 184
12.3 聚类模型评价 187
12.3.1 轮廓系数 187
12.3.2 兰德指数 187
12.4 案例:汽车车型聚类 188
小 结 193
课后习题 193
第13章 关联规则 194
13.1 基本概念 194
13.1.1 项与项集 194
13.1.2 事务 194
13.1.3 频繁项集 194
13.1.4 关联规则 195
13.2 评价准则 195
13.2.1 支持度 195
13.2.2 置信度 195
13.2.3 强关联规则与弱关联
规则 195
13.2.4 杠杆率 195
13.2.5 确信度 196
13.2.6 提升度 196
13.3 关联规则算法 196
13.3.1 Apriori算法 196
13.3.2 FP-Growth算法 198
13.4 案例:使用Apriori算法实现
超市购物车数据集分析 202
13.5 案例:使用FP-Growth算法
实现超市购物车数据集分析 204
小 结 206
课后习题 206
第14章 PageRank算法 207
14.1 PageRank算法简介 207
14.2 PageRank值的计算 207
14.3 案例:机场排名 209
14.4 案例:邮件集人物关系 211
小 结 214
课后习题 214
第15章 人工神经网络 215
15.1 感知机 215
15.1.1 单层感知机 216
15.1.2 多层感知机 217
15.2 常用的人工神经网络 217
15.2.1 全连接前馈神经网络 217
15.2.2 卷积神经网络 218
15.2.3 循环神经网络 219
15.2.4 其他神经网络 220
15.3 常用的激活函数 220
15.3.1 sigmoid函数 221
15.3.2 tanh函数 221
15.3.3 ReLU函数 222
15.3.4 Leaky ReLU函数 222
15.3.5 ELU函数 223
15.3.6 Maxout函数 223

15.3.7 Softmax 函数 224
15.4 常用的损失函数 224
15.4.1 均方误差 224
15.4.2 平均绝对误差 224
15.4.3 二元交叉熵 224
15.4.4 多分类交叉熵 225
15.4.5 稀疏多分类交叉熵 225
15.5 神经网络模型实现 225
15.5.1 构建神经网络模型 225
15.5.2 编译神经网络模型 226
15.5.3 训练神经网络模型 226
15.5.4 评价模型 227
15.5.5 用模型进行预测 227
15.6 案例:保险费用预测 227
15.7 案例:手写数字识别 231
小 结 234

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

刘吉华,博士,湖北大学副教授,硕士研究生导师,主讲数据挖掘、商务数据分析以及深度学习等课程。从事数据分析处理,主持完成多项管理、经济类相关课题,主持完成多项信息系统建设项目,参与完成多项国家重大专项课题。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部