关于本书的内容有任何问题,请联系 孙澍
目 录 第1章 数据挖掘概述 1 1.1 数据挖掘简介 1 1.1.1 数据挖掘的定义与目标 1 1.1.2 数据挖掘的应用 2 1.1.3 数据挖掘的算法 2 1.1.4 数据挖掘的相关概念 3 1.1.5 数据挖掘的流程 4 1.2 常用的数据挖掘工具 5 1.2.1 SAS Data Mining 5 1.2.2 RapidMiner 5 1.2.3 IBM SPSS Modeler 6 1.2.4 Oracle Data Mining 6 1.2.5 Apache Spark 7 1.2.6 R 8 1.2.7 Python数据挖掘工具包 8 1.3 常用数据集 9 1.3.1 常用数据集网站 9 1.3.2 Python工具包提供的数据集 11 小 结 14 课后习题 14 第2章 Python环境的搭建 15 2.1 Python的安装与配置 15 2.1.1 Python的安装 15 2.1.2 Python第三方包的管理 16 2.2 Jupyter Notebook的安装与配置 17 2.2.1 Jupyter Notebook的安装 17 2.2.2 Jupyter Notebook的配置 17 2.2.3 Jupyter Notebook的使用 19 2.3 JupyterLab的安装与配置 21 2.3.1 JupyterLab的安装 21 2.3.2 JupyterLab的使用 22 2.3.3 插件的安装 23 2.4 JupyterHub的安装与配置 23 2.4.1 JupyterHub的安装 24 2.4.2 JupyterHub的配置 24 2.4.3 JupyterHub的启动与管理 24 2.5 Anaconda的安装与配置 25 2.5.1 Anaconda及相关包的安装 26 2.5.2 Anaconda的配置与使用 27 小 结 28 课后习题 28 第3章 数据预处理 29 3.1 缺失值处理 29 3.1.1 填补法 30 3.1.2 删除法 32 3.2 数据标准化 33 3.2.1 Z-Score标准化 33 3.2.2 Min-Max标准化 35 3.2.3 RobustScaler标准化 35 3.2.4 sklearn中标准化对象的 方法 36 3.3 特征编码 36 3.3.1 用map函数编码 36 3.3.2 标签编码 37 3.3.3 独热编码 37 3.3.4 哑元编码 38 3.3.5 离散化 38 3.4 离群值检测与处理 39 3.4.1 3σ法 40 3.4.2 箱线图法 40 3.4.3 基于近邻检测离群值法 41 3.4.4 聚类法 42 3.4.5 基于模型检测法 42 3.4.6 离群值处理 42 3.5 案例:加拿大轻型汽车燃料消耗 等级和二氧化碳排放量数据集预 处理 42 小 结 55 课后习题 55 第4章 数据集划分与交叉验证评分 56 4.1 数据集划分 56 4.1.1 train_test_split()方法 57 4.1.2 K折交叉划分法 58 4.1.3 分层K折交叉划分法 59 4.1.4 乱序K次划分法 60 4.1.5 留一法 60 4.1.6 留P法 60 4.1.7 自助法 61 4.2 交叉验证评分 62 4.3 案例:房价数据集划分 62 小 结 68 课后习题 68 第5章 回归 69 5.1 回归分析 69 5.1.1 线性回归 70 5.1.2 非线性回归 75 5.2 回归模型评价 78 5.2.1 决定系数 78 5.2.2 均方误差 79 5.2.3 平均绝对误差 79 5.2.4 其他评价方法 79 5.3 案例:波士顿房价预测 80 小 结 84 课后习题 85 第6章 分类 86 6.1 分类算法 86 6.1.1 逻辑回归 87 6.1.2 K近邻 87 6.1.3 决策树 88 6.1.4 朴素贝叶斯 91 6.1.5 支持向量机 93 6.2 分类模型评价 95 6.2.1 常用评价指标 95 6.2.2 P-R曲线 96 6.2.3 ROC曲线 97 6.3 案例:汽车满意度预测 99 小 结 107 课后习题 107 第7章 集成学习 108 7.1 装袋法 108 7.1.1 将装袋法用于解决分类 问题 109 7.1.2 将装袋法用于解决回归 问题 110 7.1.3 随机森林 111 7.2 提升法 112 7.2.1 自适应提升分类算法 112 7.2.2 梯度提升树 113 7.2.3 极致梯度提升 115 7.3 堆叠法 116 7.4 投票法 117 7.5 案例:通过随机森林实现鸢尾花 分类 118 小 结 120 课后习题 120 第8章 参数调优 121 8.1 人工循环搜索 121 8.2 网格搜索 122 8.3 随机搜索 123 8.4 贝叶斯搜索 124 8.5 案例:汽车满意度预测模型参数 调优 125 小 结 129 课后习题 129 第9章 降维 130 9.1 矩阵分解降维 130 9.1.1 主成分分析 131 9.1.2 核PCA 132 9.1.3 非负矩阵分解 132 9.1.4 因子分析 133 9.1.5 独立主成分分析 134 9.2 判别分析 134 9.2.1 线性判别分析 134 9.2.2 二次判别分析 136 9.3 基于流形学习的数据降维 方法 137 9.3.1 局部线性嵌入 138 9.3.2 多维尺度变换 139 9.3.3 t分布随机邻域嵌入 141 9.4 案例:Fashion-MNIST数据集的 降维与可视化 143 小 结 149 课后习题 149 第10章 特征选择与特征联合 150 10.1 特征选择 150 10.1.1 过滤法 150 10.1.2 装袋法 154 10.1.3 嵌入法 155 10.2 案例:对中学教育学生成绩 数据集进行特征选择 156 10.3 多项式特征 160 10.4 案例:为同心圆数据集构建 多项式特征 160 10.5 特征联合 161 10.6 案例:基于波士顿房价数据集 实现特征联合 162 小 结 164 课后习题 164 第11章 流水线 166 11.1 流水线结构 166 11.2 预处理流水线 167 11.3 带学习器的流水线 168 11.4 采用网格搜索寻找流水线中 模型的最优参数 168 11.5 采用网格搜索选择流水线中的 模型 168 11.6 复杂流水线 169 11.7 案例:乳腺癌数据集的分类 模型的选择 170 小 结 172 课后习题 172 第12章 聚类 173 12.1 样本距离计算 173 12.1.1 欧氏距离 173 12.1.2 曼哈顿距离 174 12.1.3 切比雪夫距离 174 12.1.4 闵可夫斯基距离 175 12.1.5 余弦相似度 175 12.1.6 相关距离 175 12.1.7 杰卡德距离 176 12.1.8 汉明距离 177 12.2 常用的聚类方法 177 12.2.1 K均值聚类 178 12.2.2 层次聚类 180 12.2.3 带噪声的基于密度的聚类 182 12.2.4 均值漂移聚类 183 12.2.5 谱聚类 184 12.3 聚类模型评价 187 12.3.1 轮廓系数 187 12.3.2 兰德指数 187 12.4 案例:汽车车型聚类 188 小 结 193 课后习题 193 第13章 关联规则 194 13.1 基本概念 194 13.1.1 项与项集 194 13.1.2 事务 194 13.1.3 频繁项集 194 13.1.4 关联规则 195 13.2 评价准则 195 13.2.1 支持度 195 13.2.2 置信度 195 13.2.3 强关联规则与弱关联 规则 195 13.2.4 杠杆率 195 13.2.5 确信度 196 13.2.6 提升度 196 13.3 关联规则算法 196 13.3.1 Apriori算法 196 13.3.2 FP-Growth算法 198 13.4 案例:使用Apriori算法实现 超市购物车数据集分析 202 13.5 案例:使用FP-Growth算法 实现超市购物车数据集分析 204 小 结 206 课后习题 206 第14章 PageRank算法 207 14.1 PageRank算法简介 207 14.2 PageRank值的计算 207 14.3 案例:机场排名 209 14.4 案例:邮件集人物关系 211 小 结 214 课后习题 214 第15章 人工神经网络 215 15.1 感知机 215 15.1.1 单层感知机 216 15.1.2 多层感知机 217 15.2 常用的人工神经网络 217 15.2.1 全连接前馈神经网络 217 15.2.2 卷积神经网络 218 15.2.3 循环神经网络 219 15.2.4 其他神经网络 220 15.3 常用的激活函数 220 15.3.1 sigmoid函数 221 15.3.2 tanh函数 221 15.3.3 ReLU函数 222 15.3.4 Leaky ReLU函数 222 15.3.5 ELU函数 223 15.3.6 Maxout函数 223 15.3.7 Softmax 函数 224 15.4 常用的损失函数 224 15.4.1 均方误差 224 15.4.2 平均绝对误差 224 15.4.3 二元交叉熵 224 15.4.4 多分类交叉熵 225 15.4.5 稀疏多分类交叉熵 225 15.5 神经网络模型实现 225 15.5.1 构建神经网络模型 225 15.5.2 编译神经网络模型 226 15.5.3 训练神经网络模型 226 15.5.4 评价模型 227 15.5.5 用模型进行预测 227 15.6 案例:保险费用预测 227 15.7 案例:手写数字识别 231 小 结 234
本书与深度学习、大语言模型技术紧密结合,确保内容的先进性和实用性。通过系统化的介绍,按照自然语言处理核心任务的...
本书全面介绍使用Python进行医学数据分析过程中需要的大数据技术相关的理论知识、Python第三方库及机器学...
本书以任务为导向,全面介绍了如何使用Excel进行数据分析,并详细阐述了使用Excel解决企业实际问题的方法。...
本书基于VMware vSphere虚拟化平台,以项目-任务的形式讲解虚拟化技术相关知识,注重培养读者的动手操...
本书以MySQL数据库管理系统为平台,较全面地介绍了数据库的基础知识及其应用。全书共12个项目,包括数据库基础...
我要评论