数据科学导论——基于Python语言(微课版)

一本书让您快速了解数据科学相关知识!
分享 推荐 6 收藏 190 阅读 8.3K
朝乐门 (作者) 978-7-115-54820-7

关于本书的内容有任何问题,请联系 古显义

1.作者权威,编写经验丰富,且读者反映良好。
1.内容以实践为主,强化技能训练。 本书通过Python编程实践、书中代码演示和习题等,帮助读者快速掌握数据科学相关技能。
2.实例贴近实际,实用性强。本书案例皆与生活例子相关,更实用。
3.配套资源丰富。本书提供PPT、教学大纲、参考答案等资源,方便读者使用。

欢迎加入“人邮数据科学与统计教学QQ交流群”,群号:1056931673,本群会不定期分享数据科学好书及相关资源文件。

内容摘要

本书重点讲解数据科学的核心理论与实践应用。全书共7章,主要介绍数据科学的基础理论、统计学与模型、机器学习与算法、数据可视化、数据加工、大数据技术、数据产品开发及数据科学中的人文与管理等内容。本书内容通俗易懂,深入浅出,便于读者理解。
本书可作为数据科学与大数据技术、大数据管理与应用、计算机科学与技术、管理科学与工程、工商管理、数据统计、数据分析、信息管理与信息系统、商业分析等多个专业的教材,也可作为数据科学从业人士的参考用书。

目录

目录

第 1章 数据科学的基础理论 1
1.1 为什么要学习数据科学 1
1.2 数据科学的定义 4
1.3 数据科学的知识体系 6
1.4 数据科学的基本流程 8
1.5 数据科学与其他学科的区别 11
1.5.1 学科定位 11
1.5.2 研究视角 13
1.5.3 研究范式 13
1.6 数据科学的人才类型 16
1.7 数据科学的常用工具 19
1.8 数据科学的相关应用 21
1.9 继续学习本章知识 23
习题  26
第 2章 统计学与模型 29
2.1 统计学与数据科学 29
2.1.1 描述统计与推断统计 30
2.1.2 基本分析法和元分析法 31
2.2 统计方法的选择思路 32
2.3 数据划分及准备方法 33
2.3.1 自变量与因变量 34
2.3.2 数据抽样 35
2.4 参数估计与假设检验 37
2.4.1 参数估计 37
2.4.2 假设检验 38
2.5 常用统计方法及选择 39
2.5.1 相关分析 39
2.5.2 回归分析 41
2.5.3 方差分析 41
2.5.4 分类分析 42
2.5.5 聚类分析 43
2.5.6 时间序列分析 44
2.5.7 关联规则分析 44
2.6 统计学面临的挑战 45
2.7 Python编程实践 45
2.8 继续学习本章知识 53
习题  55
第3章 机器学习与算法 57
3.1 数据科学与机器学习 57
3.2 机器学习的应用步骤 60
3.3 数据划分及准备方法 61
3.4 算法类型及选择方法 62
3.5 模型的评估方法 64
3.6 机器学习面临的挑战 67
3.7 Python编程实践 68
3.8 继续学习本章知识 77
习题  79
第4章 数据可视化 81
4.1 数据科学与数据可视化 81
4.2 数据可视化的基本原则 84
4.3 视觉编码与数据类型 84
4.4 可视分析学 87
4.5 常用统计图表 89
4.6 数据可视化的发展趋势 92
4.7 Python编程实践 93
4.8 继续学习本章知识 97
习题  98
第5章 数据加工 100
5.1 数据科学与数据加工 100
5.2 探索性数据分析 101
5.3 数据大小及标准化 103
5.4 缺失数据及其处理方法 104
5.5 噪声数据及其处理方法 105
5.5.1 离群点处理 105
5.5.2 分箱处理 106
5.6 数据维度及其降维处理方法 108
5.6.1 特征选择 109
5.6.2 主成分分析 110
5.7 数据脱敏及其处理方法 110
5.8 数据形态及其规整化方法 112
5.9 Python编程实践 115
5.10 继续学习本章知识 121
习题  122
第6章 大数据技术 124
6.1 数据科学与大数据技术 124
6.2 Hadoop生态系统 125
6.3 大数据计算技术与Spark 128
6.3.1 大数据计算与Lambda
架构 128
6.3.2 Spark的出现及其特点 129
6.3.3 Spark的计算流程 131
6.3.4 Spark的关键技术 132
6.4 大数据管理技术与MongoDB 136
6.4.1 关系数据库及其优缺点 136
6.4.2 NoSQL及其数据模型 139
6.4.3 CAP理论与BASE原则 140
6.4.4 分片技术与复制技术 141
6.4.5 MongoDB 144
6.5 大数据分析技术 150
6.5.1 Analytics 3.0 150
6.5.2 Gartner分析学价值扶梯模型 152
6.5.3 数据分析中的陷阱 152
6.6 Python编程实践 154
6.7 继续学习本章知识 165
习题  167
第7章 数据产品开发及数据科学中的人文与管理 171
7.1 数据产品开发及数据科学的人文与管理属性 171
7.2 数据产品及开发 172
7.3 数据科学的项目管理 174
7.3.1 数据科学项目中的主要角色 174
7.3.2 数据科学项目中的主要活动 175
7.4 数据能力 176
7.4.1 关键过程域 177
7.4.2 成熟度等级 179
7.4.3 成熟度评价 181
7.5 数据治理 183
7.5.1 主要内容 183
7.5.2 基本过程 184
7.5.3 参考框架 185
7.6 数据安全 186
7.6.1 信息系统安全等级保护 186
7.6.2 P2DR模型 187
7.7 数据偏见 187
7.7.1 数据来源选择偏见 188
7.7.2 数据加工和准备偏见 189
7.7.3 算法与模型选择偏见 189
7.7.4 分析结果的解读和呈现上的偏见 189
7.8 数据伦理与道德 190
7.9 继续学习本章知识 191
习题  191
术语索引  193
参考文献  198

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

中国人民大学副教授,博士生导师;国家精品开放在线课程《数据科学导论》负责人;中国计算机学会信息系统专委员会委员、全国高校人工智能与大数据创新联盟专家委员会副主任、国际信息学院联盟iSchools数据科学课程专委会委员、全国高校大数据教育联盟大数据教材专家指导委员会委员、《计算机科学》执行编委;获得国家自然科学基金项目优秀项目、数据科学50人、全国高校大数据教育杰出贡献奖、IBM全球卓越教师奖、中国大数据学术创新奖、中国大数据创新百人榜单、全国高校人工智能与大数据学术创新奖等多种奖励30余项。主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863、国家自然科学基金重点项目等10余项。

推荐用户

购买本书用户

相关图书

  • Python数据分析、挖掘与可视化

    董付国

    本书注重零基础读者实现Python从入门到精通,加强读者基于数据分析而常用的编程基础,并通过数据分析、机器学习...

    ¥59.80
  • Excel 2016数据处理与分析应用教程

    谢萍

    本书分为10章,内容包括Excel 2016基础知识、数据输入与编辑、公式、函数、图表、数据管理、数据透视分析...

    ¥52.00
  • MySQL数据库教程

    郑阿奇

    本书以当前流行的MySQL为平台,系统介绍MySQL数据库及其应用开发,全书内容分为4个部分。第一部分MySQ...

    ¥56.00
  • 数据分析与可视化

    冯兴东 刘鑫

    本书主要针对数据科学、统计学、商学领域的教学,介绍基于Python软件的数据可视化基础知识、数据计算与交互式绘...

    ¥52.00
  • Python程序设计

    周辉

    Python是一门简单易学、免费开源的跨平台高级动态编程语言,具有丰富的第三方库,能够让开发人员快速地开发出应...

    ¥52.00
人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部