数据科学与大数据技术导论-图书-人邮教育社区

内容摘要

本书是高校的大数据导论课程教材，清楚地介绍了大数据相关的概念、理论、术语与基础技术，并使用真实连贯的商业案例以及简单的图表，帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据道路”等课程的教材，也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。

第1章数据科学概论　1
1.1　数据与大数据　1
1.2　大数据应用案例——从数据到知识，数据思维浅析　2
1.2.1　数据密集型科学发现　3
1.2.2　电子商务与推荐技术　5
1.2.3　网络舆情管理　6
1.2.4　数据思维　7
1.3　数据科学与数据科学家　7
1.4　数据科学与大数据技术课程的内容体系与具体内容　11
1.5　思考题　12
第2章　Python语言与数据科学　13
2.1　Python概述　13
2.2　Python开发环境配置　14
2.3　变量、常量和注释　16
2.4　数据类型　16
2.4.1　布尔型　17
2.4.2　整数　17
2.4.3　浮点数　17
2.4.4　字符串　17
2.4.5　列表　18
2.4.6　元组　19
2.4.7　字典　19
2.5　运算符及其优先级、表达式　20
2.6　程序的基本结构　21
2.6.1　顺序结构　21
2.6.2　分支结构　22
2.6.3　循环结构　22
2.6.4　编写完整的程序　23
2.6.5　程序实例：二分查找　24
2.7　函数以及库函数　24
2.8　面向对象编程　27
2.8.1　构造函数　28
2.8.2　对象的摧毁和垃圾回收　28
2.8.3　继承　28
2.8.4　重写　28
2.9　异常处理　29
2.10　第三方库和实例　29
2.10.1　机器学习库scikit-learn简介　30
2.10.2　深度学习库Keras简介　30
2.10.3　绘图库matplotlib简介　30
2.10.4　社交网络与图数据处理库networkX简介　31
2.10.5　自然语言处理库NLTK简介　31
2.10.6　pandas库入门　31
2.11　思考题　38
第3章　数据分析基础　39
3.1　数据模型　39
3.1.1　数组　39
3.1.2　图　42
3.1.3　关系模型　44
3.1.4　时序模型　45
3.2　数据分析流程与数据生命期　45
3.2.1　业务理解　45
3.2.2　数据理解　46
3.2.3　数据准备　46
3.2.4　建模　46
3.2.5　评估　47
3.2.6　部署　47
3.3　数据分析的基础方法　47
3.3.1　描述性分析　47
3.3.2　诊断性分析　48
3.3.3　预测性分析　48
3.3.4　规范分析　49
3.4　大数据平台　49
3.4.1　Hadoop　49
3.4.2　Hive　51
3.4.3　Mahout　52
3.4.4　Spark　52
3.4.5　Storm　53
3.4.6　Flink　53
3.4.7　Neo4j　54
3.5　思考题　54
第4章　数据可视化　55
4.1　可视化的定义　55
4.2　可视化发展历程　55
4.3　可视化的意义和价值　57
4.4　数据可视化的流程　59
4.5　常见可视化图表　59
4.5.1　柱状图　60
4.5.2　折线图　61
4.5.3　饼图　61
4.5.4　散点图　61
4.5.5　雷达图　61
4.6　可视化图表工具　62
4.7　思考题　64
第5章　数据分析与计算　65
5.1　机器学习简介　65
5.2　分类　67
5.2.1　支持向量机　67
5.2.2　决策树　70
5.2.3　朴素贝叶斯方法　72
5.2.4　K最近邻（KNN）算法　75
5.2.5　逻辑斯蒂回归　76
5.2.6　分类算法的实例　77
5.3　聚类　81
5.3.1　K-Means算法　81
5.3.2　DBSCAN算法　83
5.3.3　聚类实例　85
5.4　回归　88
5.4.1　线性回归与多元线性回归　88
5.4.2　回归实例　90
5.5　关联规则分析　92
5.5.1　关联规则分析　92
5.5.2　关联规则分析实例　95
5.6　推荐　97
5.6.1　基于用户的协同过滤推荐　98
5.6.2　基于项目的协同过滤推荐　100
5.7　神经网络与深度学习　101
5.7.1　神经网络　101
5.7.2　深度学习　104
5.7.3　神经网络与深度学习实例　112
5.8　云计算平台与主流大数据平台　119
5.8.1　云计算平台　119
5.8.2　Hadoop大数据处理平台与MapReduce计算模型　121
5.8.3　Spark大数据处理平台与DAG计算模型　128
5.9　思考题　134
第6章　文本分析　135
6.1　文本分析的背景和意义　135
6.2　文本表达　136
6.2.1　单词的局域性表示和分布式表示　136
6.2.2　基于话题模型的文本表示　139
6.2.3　基于词嵌入的文本表示　139
6.3　文本聚类　140
6.3.1　聚类分析问题描述　141
6.3.2　常用聚类算法　142
6.4　文本分类　144
6.4.1　分类问题定义　144
6.4.2　主要文本分类方法　144
6.5　思考题　149
第7章　数据存储与管理　150
7.1　数据管理的初级阶段——文件管理　150
7.2　层次数据库和网状数据库　151
7.3　关系数据库管理系统　153
7.3.1　关系数据模型　153
7.3.2　数据操作　154
7.3.3　事务处理、并发控制和恢复技术　155
7.3.4　SQL入门　156
7.4　NoSQL数据库　160
7.4.1　CAP理论与NoSQL数据库　160
7.4.2　Key Value数据库　161
7.4.3　Column Family数据库　164
7.4.4　Document数据库　165
7.4.5　Graph数据库　166
7.5　NewSQL及其代表VoltDB　167
7.5.1　事务的串行执行　167
7.5.2　通过存储过程存取数据库　167
7.5.3　数据分区策略考虑尽量避免跨节点数据通信　168
7.5.4　命令日志与恢复技术　168
7.6　思考题　168
第8章　数据采集与集成　170
8.1　数据采集　170
8.1.1　数据采集的重要因素　171
8.1.2　推-拉机制　171
8.1.3　发布-订阅机制　172
8.1.4　大数据收集系统　172
8.1.5　自定义连接器　173
8.2　信息抽取　173
8.2.1　信息抽取概述　174
8.2.2　半结构化数据和非结构化数据　174
8.2.3　信息抽取的关键技术　176
8.3　数据清洗　178
8.3.1　数据清洗的定义及对象　178
8.3.2　数据清洗原理　179
8.3.3　数据清洗方法　179
8.4　数据集成　181
8.4.1　数据集成概述　182
8.4.2　数据集成方法　183
8.4.3　数据集成的数据源异构问题　186
8.5　思考题　188
第9章　数据治理　189
9.1　数据治理的业务驱动力　189
9.2　数据治理的概念　190
9.3　数据治理的目标　191
9.3.1　实现价值　191
9.3.2　管控风险　192
9.4　数据治理的要素和框架　192
9.4.1　人员要素　194
9.4.2　技术要素　196
9.5　数据治理的实践　201
9.5.1　各个业务子系统的建设和数据治理同步推进　201
9.5.2　建立数据治理的组织机构，确定数据治理战略/政策和标准　201
9.5.3　规划具体的数据治理任务　201
9.5.4　开展数据治理工作　202
9.5.5　数据治理的评价　203
9.6　大数据时代数据治理的挑战　203
9.7　思考题　204
第10章　数据科学综合案例　205
10.1　利用现成分类器对Twitter数据集进行情感分类　206
10.2　如何自行构造一个文本分类器　209
10.3　综合实例　218
10.4　思考题　232
参考文献　233