数据仓库与数据挖掘(第2版 微课版)

全新改版升级,配套微课视频
分享 推荐 0 收藏 2 阅读 1.1K
袁汉宁 , 王树良 , 阮思捷 , 耿晶 , 金福生 (编著) 978-7-115-67788-4

关于本书的内容有任何问题,请联系 孙澍

【体系结构】内容系统全面,涵盖数据仓库和数据挖掘的基本原理、常见方法和应用。
【内容创新】
①强化工程应用,每章设计实践案例,采用一章设计综合案例;
②融合人工智能新技术,融入知识图谱、深度学习、强化学习和大模型等。
【案例特色】案例基于中软国际平台的数据挖掘课程建设和产教融合的大数据技术协同育人体系建设成果。
¥59.80 ¥50.83 (8.5 折)
教学资源仅供教师教学使用,转载或另作他用版权方有权追究法律责任。

内容摘要

本书系统地介绍了数据仓库和数据挖掘的基本原理和应用方法,内容主要包括数据仓库的概念和相关技术发展、数据模型、数据 ETL,数据挖掘的数据预处理、数据分类、回归分析、关联规则挖掘、数据聚类、异常检测、数据可视化等算法,以及大数据智能平台的设计与实现。各章节以数据为“经”组织,以算法为“纬”讲述,既自然衔接又相对独立。读者可按教材的自然顺序学习,也可据实际需要挑选相关章节学习。 本书适合高等学校大数据科学与技术、人工智能、计算机科学与技术、软件工程等专业方向的本科生、研究生作为教材或参考书,也可供相关领域的科研、工程人员参考。

图书详情

目录

第1章概述
1.1引言
1.1.1数据剧增
1.1.2生产要素
1.1.3数据战略
1.2研究历程
1.2.1数据管理分析的历程
1.2.2数据挖掘的历程
1.2.3大数据的历程
1.3数据挖掘的流程
1.3.1业务理解
1.3.2数据理解
1.3.3数据准备
1.3.4建立模型
1.3.5模型评估
1.3.6结果部署
1.4数据驱动的应用
1.4.1能源环保
1.4.2医疗卫生
1.4.3社会治安
1.4.4城市发展
1.4.5影视娱乐
1.4.6推荐系统
1.5关键挑战
1.5.1数据庞大价值疏
1.5.2多源异构变化快
1.5.3解释困难隐私多
本章习题

第2章数据
2.1数据的基本内容
2.1.1蕴含内容
2.1.2基本类型
2.1.3数据形态
2.1.4数据属性
2.2数据的统计特征
2.2.1集中趋势
2.2.2离散程度
2.2.3分布形状
2.3数据的相似相异
2.3.1集合距离
2.3.2几何距离
2.3.3语义距离
本章习题

第3章数据预处理
3.1数据清洗
3.1.1被污染的数据
3.1.2数据清洗的过程
3.1.3数据清洗的方法
3.2数据变换
3.2.1数据平滑
3.2.2数据锐化
3.2.3数据规范化
3.2.4数据离散化
3.3数据集成
3.3.1基于数据仓库的方案
3.3.2基于虚拟集成系统的方案
3.4数据融合
3.4.1基于知识图谱的数据融合
3.4.2基于知识图谱的融合数据应用
3.5数据归约
3.5.1属性归约
3.5.2数值归约
本章习题

第4章数据仓库和数据湖
4.1数据仓库的概念
4.1.1从数据库到数据仓库
4.1.2数据仓库的特点
4.1.3传统数据仓库的Inmon模式、Kimball模式
4.1.4动态数据仓库
4.1.5海量数据仓库
4.2数据仓库模型
4.2.1星型模型
4.2.2雪花型模型
4.2.3星-雪花型模型
4.2.4数据立方体
4.3数据ETL
4.3.1数据抽取
4.3.2数据转换
4.3.3数据加载
4.4OLAP
4.4.1从OLTP到OLAP
4.4.2OLAP系统分类
4.4.3OLAP基本操作
4.4.4基于OLAP的数据挖掘
4.5数据湖
4.5.1数据湖的架构
4.5.2数据湖的组成部分及其关系
4.5.3存储系统
4.5.4数据探索
4.6湖仓一体
4.6.1湖仓一体的架构
4.6.2湖仓一体的优劣
本章习题

第5章关联规则
5.1关联规则的基本思想
5.2关联规则的主要算法
5.2.1Apriori算法
5.2.2FP-Growth算法——Apriori算法的优化
5.3关联规则的研发历程
本章习题

第6章聚类
6.1聚类的基本思想
6.1.1簇
6.1.2聚类分析
6.1.3聚类评价指标
6.2聚类的主要算法
6.2.1k-means算法
6.2.2高斯混合模型
6.2.3层次聚类算法
6.2.4DBSCAN聚类算法
6.2.5网格聚类
6.2.6拓扑图聚类
6.2.7引力聚类
6.2.8深度聚类
6.3聚类的研发历程
本章习题

第7章分类
7.1分类的基本思想
7.1.1相关概念
7.1.2算法评价指标
7.2分类的主要算法
7.2.1决策树算法及其优化
7.2.2CART算法
7.2.3SVM算法
7.2.4KNN算法
7.2.5朴素贝叶斯算法
7.3分类的研发历程
本章习题

第8章回归分析
8.1回归分析的基本思想
8.2回归分析的主要模型
8.2.1线性回归模型
8.2.2非线性回归模型
8.2.3逐步回归分析
8.2.4逻辑回归分析
8.3回归分析的研发历程
本章习题

第9章异常检测
9.1异常检测的基本思想
9.1.1异常种类
9.1.2异常检测方法
9.2异常检测的主要算法
9.2.1基于统计的异常检测
9.2.2基于距离的异常检测
9.2.3基于密度的异常检测
9.2.4基于聚类的异常检测
9.2.5时间序列异常检测
9.3异常检测的研发历程
本章习题

第10章高级数据分析方法
10.1集成学习
10.1.1装袋算法
10.1.2提升
10.2深度学习
10.2.1多层感知机
10.2.2卷积神经网络
10.2.3递归神经网络
10.2.4Transformer
10.3强化学习
10.3.1马尔可夫决策过程
10.3.2基于值的强化学习
10.3.3基于策略的强化学习
10.4大模型预训练
10.4.1BERT
10.4.2GPT
10.4.3BERT与GPT对比分析
本章习题

第11章数据可视化
11.1可视化基本思想
11.1.1可视化人机交互
11.1.2可视化分析
11.2可视化主要方法
11.2.1统计数据可视化方法
11.2.2高维数据可视化方法
11.2.3图数据可视化方法
11.2.4文本数据可视化方法
11.2.5时空数据可视化方法
11.2.6交互可视化方法
11.3基于可视化的交互式数据挖掘方法
11.3.1基于可视化的交互式数据挖掘方法分类
11.3.2可视化增强的通用数据挖掘方法
11.3.3面向应用场景的方法
11.4可视化数据分析挖掘的研发历程
本章习题

第12章典型应用
12.1客户流失预测
12.1.1业务理解
12.1.2数据理解
12.1.3数据准备
12.1.4构建模型
12.1.5评估模型
12.1.6结果部署
12.2客户稳定度评估
12.2.1业务理解
12.2.2数据理解
12.2.3数据准备
12.2.4构建模型
12.2.5评估模型
12.2.6结果部署
12.3基于梧桐·鸿鹄大数据实训平台的案例实践
12.3.1客户流失预测
12.3.2客户稳定度评估
本章习题

参考文献

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

袁汉宁,北京理工大学计算机学院副教授,主要从事数据挖掘和大数据分析等方面的研究,主持和参与国家自然基金重点项目、国家重点研发计划子课题、贵州省科技支撑计划等科研项目以及教育部产学合作协同育人教改项目。发表 SCI/EI 收录学术论文 30 余篇,申请/授权国家发明专利 10 余项,出版教材 2 部,获得湖北省科技进步一等奖 1 项,中国电子学会自然科学二等奖 1 项,中国指挥与控制学会科技进步一等奖 1 项。

王树良,教授,博士生导师,北京理工大学电子政务研究院执行院长,第十一届全国青联委员,中国制造企业双创发展联盟副理事长,国家科技创新专项专家咨询组秘书长,教育部高等学校软件工程专业教学指导委员会委员,中国指挥与控制学会认知与行为专业委员会主任,数字政府建设服务联盟专家指导委员会委员,大数据系统软件国家工程研究中心技术指导委员会委员,Chinese Journal of Electronics编委。 入选国家高层次领军人才、科技部领军人才、教育部新世纪优秀人才、CICC青年科学家等。 主持国家重点研发计划项目、国家科技创新战略重大专项、国家自然科学基金项目等。 获国家科学技术进步奖一等奖、全国优秀博士学位论文、中国指挥与控制学会技术发明一等奖等。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部