关于本书的内容有任何问题,请联系 李召
第1章 初识Python数据预处理 1.1 数据预处理概述 1 1.1.1 认识数据 1 1.1.2 数据应用开发流程 2 1.1.3 数据预处理的目的 2 1.1.4 数据预处理的应用领域 3 1.2 高质量的数据 4 1.2.1 常见的数据问题 4 1.2.2 数据质量 5 1.3 数据预处理流程 5 1.3.1 数据获取与存储 6 1.3.2 数据清洗 6 1.3.3 数据集成 6 1.3.4 数据变换 7 1.3.5 数据规约 7 1.4 开发环境设置 8 1.4.1 Anaconda概述 8 1.4.2 Anaconda下载安装 8 1.4.3 Anaconda管理虚拟环境 13 1.5 Jupyter的使用 16 1.5.1 认识Jupyter 16 1.5.2 启动Jupyter Notebook 16 1.5.3 Jupyter工作原理 18 1.5.4 Jupyter使用方法 18 1.6 常用的数据预处理工具 22 1.6.1 数值计算工具NumPy 22 1.6.2 数据处理工具SciPy 31 1.6.3 数据处理工具Pandas 35 1.7 本章小结 40 1.8 习题 40 第2章 数据获取与存储 2.1 数据准备 43 2.1.1 常见的数据类型 43 2.1.2 常见的数据文件格式 46 2.2 网络爬虫获取数据 49 2.2.1 认识网络爬虫 49 2.2.2 网络爬虫执行阶段 50 2.2.3 爬取百度logo 50 2.2.4 常见的数据存储方式 52 2.3 数据读写 53 2.3.1 可读写数据 53 2.3.2 读写CSV数据 55 2.3.3 读写JSON数据 59 2.3.4 读写XML数据 61 2.3.5 读写Excel数据 62 2.4 使用数据库实现数据存储 65 2.4.1 认识数据库 65 2.4.2 数据库存储数据 66 2.5 实战1:遍历文件批量抽取文本内容 68 2.5.1 任务说明 68 2.5.2 任务分析 69 2.5.3 任务实现 71 2.6 本章小结 74 2.7 习题 74 第3章 数据清洗 3.1 数据清洗概述 77 3.1.1 初识数据清洗 77 3.1.2 数据清洗必要性 78 3.1.3 导入与审视数据 78 3.2 缺失值处理 83 3.2.1 缺失值产生原因 83 3.2.2 检测缺失值 83 3.2.3 填充缺失值fillna( ) 86 3.2.4 删除缺失值dropna( ) 88 3.2.5 插补缺失值interpolate( ) 89 3.3 重复值处理 91 3.3.1 检测重复值 91 3.3.2 处理重复值 92 3.4 异常值处理 97 3.4.1 检测异常值 97 3.4.2 处理异常值 100 3.5 时间日期格式处理 102 3.5.1 常见的时间日期格式 102 3.5.2 Python处理时间日期格式 105 3.5.3 Pandas转换数据 106 3.6 实战2:用户用电数据清洗 107 3.6.1 任务说明 107 3.6.2 任务分析 107 3.6.3 任务实现 108 3.7 本章小结 109 3.8 习题 109 第4章 数据集成 4.1 数据集成概述 112 4.1.1 初识数据集成 112 4.1.2 冗余属性识别 113 4.1.3 实体识别 114 4.1.4 数据不一致 114 4.2 主键合并数据 114 4.2.1 Pandas的merge( )函数 114 4.2.2 join( )函数 116 4.2.3 Pandas的merge( )函数使用how参数合并数据 117 4.3 堆叠合并数据 119 4.3.1 Pandas的concat( )函数 119 4.3.2 NumPy的concatenate( )函数 121 4.3.3 append( )函数 122 4.4 重叠合并数据 123 4.4.1 combine( )函数 123 4.4.2 combine_first( )函数 125 4.5 集成方法介绍 125 4.5.1 认识机器学习库sklearn 126 4.5.2 数据集拆分 132 4.6 实战3:探索虚拟姓名数据 134 4.6.1 任务说明 134 4.6.2 任务分析 134 4.6.3 任务实现 135 4.7 本章小结 137 4.8 习题 137 第5章 数据变换 5.1 数据变换概述 140 5.1.1 初识数据变换 140 5.1.2 数据变换方式 141 5.2 常见操作 141 5.2.1 简单函数变换 141 5.2.2 连续属性离散化 143 5.2.3 属性构造 149 5.2.4 小波变换 150 5.2.5 数据规范化 151 5.3 分组与聚合 154 5.3.1 概述 154 5.3.2 窗口函数 155 5.3.3 分组函数 157 5.3.4 聚合函数 162 5.4 轴向旋转 167 5.4.1 Pandas透视表 168 5.4.2 melt( )函数 171 5.5 哑变量处理与面元切分 173 5.5.1 哑变量处理 173 5.5.2 面元切分 174 5.6 数据转换 175 5.6.1 函数映射转换 175 5.6.2 值处理:replace( )替换元素 176 5.6.3 行列处理:map( )映射 177 5.6.4 索引处理:rename( )重命名 178 5.7 实战4:探索酒类消费数据 179 5.7.1 任务说明 179 5.7.2 任务分析 179 5.7.3 任务实现 180 5.8 本章小结 180 5.9 习题 181 第6章 数据规约 6.1 数据规约概述 184 6.1.1 初识数据规约 184 6.1.2 数据规约的常见类型 185 6.2 Pandas数据规约操作 189 6.2.1 数据重塑 189 6.2.2 降采样 192 6.2.3 PCA降维 194 6.3 实战5:利用sklearn实现鸢尾花数据降维 199 6.3.1 任务说明 199 6.3.2 任务分析 199 6.3.3 任务实现 200 6.4 本章小结 201 6.5 习题 202 第7章 综合实战:家用热水器用户行为分析 7.1 项目背景与目标 204 7.1.1 项目背景 204 7.1.2 项目目标 205 7.1.3 项目分析 205 7.1.4 项目总体流程 206 7.2 探索数据 206 7.2.1 认识数据集 206 7.2.2 探索数据特征 207 7.3 数据预处理 210 7.3.1 数据变换之连续属性离散化 211 7.3.2 数据规约之属性规约 212 7.3.3 数据集成之合并数据 213 7.3.4 数据变换之属性构造 216 7.3.5 数据清洗之筛选候选洗浴事件 223 7.4 构建模型 224 7.4.1 BP神经网络模型 224 7.4.2 构建洗浴事件识别模型 226 7.5 模型评估 228 7.5.1 评价指标 228 7.5.2 绘制ROC曲线 229 7.6 本章小结 230 第8章 综合实战:赏析中华古诗词 8.1 项目背景与目标 231 8.1.1 项目背景 231 8.1.2 项目目标 231 8.1.3 项目总体流程及分析 231 8.2 基本特征提取 232 8.2.1 数据集介绍 232 8.2.2 数据描述 233 8.2.3 jieba分词 235 8.2.4 分词模式和并行分词 236 8.2.5 关键词提取 236 8.3 文本预处理 239 8.3.1 独热编码器处理标签 239 8.3.2 词性标注、自定义字典 240 8.3.3 去除停用词 241 8.3.4 文本中的字符处理 241 8.4 模型构建——中文文本词云 243 8.4.1 认识词云 243 8.4.2 wordcloud库 243 8.5 实战6:三国演义中文词频统计 246 8.5.1 任务说明 246 8.5.2 任务分析 246 8.5.3 任务实现 247 8.6 本章小结 248
...
本书从初学者的角度出发,用通俗易懂的语言对Java Web开发的相关知识进行深入讲解。本书共11章,详细讲解网...
本书是一本面向初学者的鸿蒙应用开发基础教材。全书共9章:第1章讲解鸿蒙的概念和开发环境搭建;第2~3章讲解鸿蒙...
本书作为HTML5程序设计课程的教材,系统、全面地介绍了利用HTML5进行网站前端开发所涉及的常用知识。全书共...
本书全面地介绍了使用Office 2019办公软件中的Word、Excel和PowerPoint3个组件以及结...
我要评论