大数据技术精品系列教材

机器学习原理与实战

Python机器学习常用技术与真实案例相结合,帮助零基础读者更快使用Python进行机器学习,配套大数据平台python.tipdm.org。
分享 推荐 7 收藏 152 阅读 15.1K
何伟 , 张良均 (主编) 金应华 , 王清 , 施兴 (副主编) 978-7-115-56399-6

关于本书的内容有任何问题,请联系 初美呈

欢迎加入人邮大数据教师服务群:669819871
1.以实现机器学习流程的各个步骤为导向,深入浅出地介绍了如何从零开始构建机器学习应用所需的必备技能。
2.章节均采用总分结构,先总体陈述本章涉及的内容,而后将相关知识点一一道出。
3.设计思路以应用为导向,让读者明确如何利用所学知识来解决问题,并通过课后练习巩固所学内容,使读者真正理解并能够应用所学知识。

内容摘要

本书以Python机器学习常用技术与真实案例相结合的方式, 深入浅出地介绍了Python机器学习应用的主要内容。 全书共11章, 分别介绍了机器学习概述、数据准备、特征工程、 有监督学习、 无监督学习、智能推荐的相关知识,并介绍了市财政收入分析案例、基千非侵入式电力负荷监测与分解的电力分析案例、航空公司客户价值分析案例、广电大数据营销推荐案例以及基千TipDM数据挖掘建模平台实现航空公司客户价值分析案例。 每章都包含了课后习题, 帮助读者巩固所学的内容。
本书可以作为高校数据科学或人工智能的相关专业教材, 也可以作为机器学习爱好者的自学用书。

目录

目录

第 1章 机器学习概述 1
1.1 机器学习简介 1
1.1.1 机器学习的概念 1
1.1.2 机器学习的应用领域 1
1.2 机器学习通用流程 3
1.2.1 目标分析 4
1.2.2 数据准备 5
1.2.3 特征工程 6
1.2.4 模型训练 7
1.2.5 性能度量与模型调优 7
1.3 Python机器学习工具库简介 7
1.3.1 数据准备相关工具库 8
1.3.2 数据可视化相关工具库 8
1.3.3 模型训练与评估相关工具库 9
小结 10
课后习题 10
第 2章 数据准备 13
2.1 数据质量校验 13
2.1.1 一致性校验 13
2.1.2 缺失值校验 16
2.1.3 异常值分析 17
2.2 数据分布与趋势探查 18
2.2.1 分布分析 18
2.2.2 对比分析 22
2.2.3 描述性统计分析 26
2.2.4 周期性分析 28
2.2.5 贡献度分析 30
2.2.6 相关性分析 31
2.3 数据清洗 35
2.3.1 缺失值处理 35
2.3.2 异常值处理 39
2.4 数据合并 39
2.4.1 数据堆叠 40
2.4.2 主键合并 43
小结 45
课后习题 45
第3章 特征工程 48
3.1 特征变换 48
3.1.1 特征缩放 48
3.1.2 独热编码 52
3.1.3 离散化 53
3.2 特征选择 56
3.2.1 过滤式选择 57
3.2.2 包裹式选择 58
3.2.3 嵌入式选择 58
3.2.4 字典学习 59
小结 64
课后习题 64
第4章 有监督学习 67
4.1 有监督学习简介 67
4.2 性能度量 67
4.2.1 分类任务性能度量 68
4.2.2 回归任务性能度量 70
4.3 线性模型 70
4.3.1 线性模型简介 70
4.3.2 线性回归 70
4.3.3 逻辑回归 73
4.4 k近邻分类 76
4.5 决策树 78
4.5.1 决策树简介 78
4.5.2 ID3算法 79
4.5.3 C4.5算法 81
4.5.4 CART算法 84
4.6 支持向量机 86
4.6.1 支持向量机简介 86
4.6.2 线性支持向量机 87
4.6.3 非线性支持向量机 91
4.7 朴素贝叶斯 94
4.8 神经网络 98
4.8.1 神经网络介绍 98
4.8.2 BP神经网络 99
4.9 集成学习 103
4.9.1 Bagging 104
4.9.2 Boosting 106
4.9.3 Stacking 109
小结 111
课后习题 111
第5章 无监督学习 113
5.1 无监督学习简介 113
5.2 降维 113
5.2.1 PCA 114
5.2.2 核化线性降维 116
5.3 聚类任务 119
5.3.1 性能度量 119
5.3.2 距离计算 120
5.3.3 原型聚类 121
5.3.4 密度聚类 128
5.3.5 层次聚类 131
小结 133
课后习题 133
第6章 智能推荐 135
6.1 智能推荐简介 135
6.1.1 什么是推荐系统 135
6.1.2 智能推荐的应用 135
6.2 智能推荐性能度量 137
6.2.1 离线实验评价指标 137
6.2.2 用户调查评价指标 139
6.2.3 在线实验评价指标 140
6.3 基于关联规则的智能推荐 140
6.3.1 关联规则和频繁项集 140
6.3.2 Apriori 141
6.3.3 FP-Growth 145
6.4 基于协同过滤的智能推荐 150
6.4.1 基于用户的协同过滤 150
6.4.2 基于物品的协同过滤 153
小结 157
课后习题 157
第7章 市财政收入分析 160
7.1 目标分析 160
7.1.1 背景 160
7.1.2 数据说明 160
7.1.3 分析目标 161
7.2 数据准备 162
7.3 特征工程 164
7.3.1 Lasso回归 164
7.3.2 特征选择 164
7.4 模型训练 165
7.4.1 灰色预测模型 165
7.4.2 关键特征预测 166
7.4.3 SVR模型预测 168
7.5 性能度量 169
小结 171
课后习题 171
第8章 基于非侵入式电力负荷监测与分解的电力分析 172
8.1 目标分析 172
8.1.1 背景 172
8.1.2 数据说明 173
8.1.3 分析目标 175
8.2 数据准备 176
8.2.1 数据探索 176
8.2.2 缺失值处理 179
8.3 特征工程 181
8.3.1 设备数据 181
8.3.2 周波数据 182
8.4 模型训练 183
8.5 性能度量 185
小结 189
课后习题 189
第9章 航空公司客户价值分析 190
9.1 目标分析 190
9.1.1 背景 190
9.1.2 数据说明 191
9.1.3 分析目标 192
9.2 数据准备 192
9.2.1 数据探索 192
9.2.2 数据清洗 193
9.3 特征工程 193
9.3.1 特征构造 193
9.3.2 特征选择 195
9.3.3 特征变换 196
9.4 模型训练 198
9.5 性能度量 199
9.5.1 结果分析 199
9.5.2 客户价值分析 201
小结 202
课后习题 202
第 10章 广电大数据营销推荐 205
10.1 目标分析 205
10.1.1 背景 205
10.1.2 数据说明 206
10.1.3 分析目标 208
10.2 数据准备 209
10.2.1 数据获取 209
10.2.2 数据清洗 209
10.2.3 数据探索分析 216
10.3 特征工程 222
10.3.1 特征构造 222
10.3.2 节目信息的获取 244
10.4 模型构建 247
10.4.1 基于物品的协同过滤算法的推荐模型 248
10.4.2 基于Simple TagBased TF-IDF算法的标签推荐模型 250
10.4.3 Popular流行度推荐模型 254
10.5 性能度量 255
10.6 结果分析 258
小结 258
课后习题 259
第 11章 基于TipDM数据挖掘建模平台实现航空公司客户价值分析 260
11.1 平台简介 260
11.1.1 首页 261
11.1.2 数据源 261
11.1.3 工程 263
11.1.4 系统组件 263
11.1.5 TipDM数据挖掘建模平台的本地化部署 264
11.2 快速构建航空公司客户价值分析工程 267
11.2.1 数据获取 267
11.2.2 数据准备 270
11.2.3 特征工程 273
11.2.4 模型训练 275
小结 277
课后习题 277
参考文献 278

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

何伟,男,中共党员,博士后,教授,硕士生导师,香港理工大学访问学者,福建省百千万人才工程省级人选,福建省高层次人才(C类),福建省高校杰出青年科研人才,现任闽江学院教务处长、物理与电子信息工程学院院长、创新创业创造学院常务副院长,海洋智能船舶装备福建省高校工程研究中心主任。主要研究智能系统与信息融合、船海装备与新能源等领域。先后在国内外发表学术论文50余篇,授权专利17项、软著6项;主持国家自然科学基金面上项目、福建省自然科学基金项目等省部级以上项目十余项;获福建省教学成果特等奖、福建省科技进步二等奖、中国航海学会科学技术一等奖等多项省部级奖项。入选担任福建省创新创业创造教育指导委员会委员,中国智能交通协会水路交通专业委员会委员,福建省船舶与海洋工程学会委员等学术兼职。

张良均。高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》等9本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

推荐用户

同系列书

  • Python数据分析与应用

    黄红梅 张良均 张凌 施兴 周东平

    本书以任务为导向,全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际...

    ¥49.80
  • Python中文自然语言处理基础与实战

    肖刚 张良均 郑鑫标 罗惠琳 陈晓娜

    本书以Python自然语言处理的常用技术与真实案例相结合的方式,深入浅出地介绍Python自然语言处理的重要内...

    ¥59.80
  • Python网络爬虫技术

    江吉彬 张良均 詹增荣 戴华炜 郭信佑

    本书以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法,包括静态网页、动态网页、登录后才能...

    ¥39.80
  • Python编程基础

    张健 张良均 何燕 张敏 姜鹏辉

    本书采用以任务为导向的编写模式,全面地介绍了Python编程基础及其相关知识的应用,讲解了如何利用Python...

    ¥39.80
  • Spark大数据技术与应用

    肖芳 张良均 汪作文 胡大威 樊哲

    本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Sc...

    ¥49.80

购买本书用户

相关图书

  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80
  • 人工智能原理及MATLAB实现

    许国根

    本书系统地阐述了人工智能算法的基本原理、实现技术及其应用,基本涵盖了其重要理论和方法,包括了最近发展起来的并被...

    ¥79.80
  • 大数据分析处理(慕课版)

    郭永洪,贺萌

    本书采用理论知识与任务案例相结合的形式,以PyCharm为主要开发工具,系统地阐述了大数据分析处理工作流程中的...

    ¥69.80
单击此处加入人邮大数据教师服务群,共同探讨交流。
人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部