关于本书的内容有任何问题,请联系 李召
第1章 大数据概论 1 1.1 数据的基本概念 1 1.1.1 什么是数据 1 1.1.2 数据组成结构 2 1.1.3 数据的价值 4 1.2 什么是大数据 4 1.2.1 大数据产生背景 4 1.2.2 大数据发展的原动力 5 1.2.3 大数据基本概念与特征 6 1.2.4 大数据与云计算 6 1.2.5 大数据与人工智能 7 1.3 大数据主要技术 8 1.3.1 概述 8 1.3.2 大数据采集与处理 9 1.3.3 大数据存储技术 9 1.3.4 大数据计算技术 11 1.3.5 大数据可视化 12 1.3.6 大数据安全 12 1.4 大数据主流框架 14 1.4.1 Hadoop 14 1.4.2 ZooKeeper 14 1.4.3 HBase 14 1.4.4 Hive 14 1.4.5 Storm 15 1.4.6 Flume 15 1.4.7 Kafka 15 1.5 本章小结 15 1.6 习题 16 第2章 大数据基础知识 17 2.1 概述 17 2.1.1 Hadoop产生背景 17 2.1.2 Hadoop核心模块 18 2.1.3 Hadoop相关项目 19 2.2 Common 20 2.3 HDFS 20 2.3.1 HDFS设计思想 20 2.3.2 HDFS体系结构 21 2.3.3 文件系统命名空间 22 2.3.4 数据复制 22 2.3.5 副本放置策略 23 2.3.6 副本选择 23 2.3.7 安全模式 23 2.3.8 元数据的持久性 24 2.3.9 通信协议 24 2.3.10 健壮性 24 2.4 YARN 25 2.5 MapReduce 27 2.6 Hadoop应用场景 29 2.7 Hadoop环境配置 29 2.7.1 Hadoop配置基础知识 29 2.7.2 Hadoop安装模式 29 2.7.3 Hadoop版本选择 30 2.7.4 Hadoop伪分布模式搭建 31 2.8 基于Hadoop平台的IDEA开发环境搭建 36 2.8.1 Maven项目的创建 36 2.8.2 编写经典的MapReduce 程序WordCount 38 2.9 本章小结 46 2.10 习题 46 第3章 大数据文件存储系统 48 3.1 数据块 48 3.2 HDFS工作流 49 3.2.1 HDFS写数据过程 49 3.2.2 HDFS读数据过程 50 3.3 HDFS应用程序设计 51 3.3.1 HDFS Shell命令 51 3.3.2 Web接口 53 3.3.3 HDFS API 55 3.3.4 HDFS API写操作 57 3.3.5 HDFS API读操作 59 3.4 HDFS存储格式 60 3.5 Hadoop I/O 61 3.5.1 压缩 61 3.5.2 I/O序列化类型 64 3.6 本章小结 67 3.7 习题 67 第4章 大数据计算技术 68 4.1 MapReduce运行过程 68 4.2 MapReduce编程过程 70 4.3 MapReduce数据类型 72 4.4 Mapper输入 73 4.5 Shuffle原理 76 4.5.1 Shuffle工作原理 76 4.5.2 自定义分区 79 4.5.3 自定义排序 81 4.5.4 自定义分组 82 4.6 Combiner本地合并优化 83 4.7 Reducer输出 84 4.8 计数器 89 4.9 MapReduce应用开发 91 4.9.1 最大最小计数值 92 4.9.2 全排序 94 4.9.3 二次排序 97 4.10 本章小结 102 4.11 习题 102 第5章 大数据应用程序协调服务 103 5.1 ZooKeeper概述 103 5.1.1 ZooKeeper简介 103 5.1.2 ZooKeeper常用术语 104 5.1.3 ZooKeeper设计目标 104 5.1.4 数据模型和分层命名空间 105 5.1.5 ZooKeeper工作原理 106 5.2 ZooKeeper集群搭建 107 5.2.1 集群规划 107 5.2.2 ZooKeeper集群安装 107 5.3 ZooKeeper与Hadoop高可用性 110 5.4 Hadoop高可用性集群部署 111 5.4.1 集群规划 111 5.4.2 集群部署 112 5.5 本章小结 122 5.6 习题 122 第6章 大数据存储应用技术 123 6.1 HBase 基础知识 123 6.1.1 HBase产生背景 123 6.1.2 HBase数据模型 124 6.1.3 HBase体系结构 125 6.1.4 HBase与HDFS 127 6.1.5 HBase应用场景 127 6.2 HBase开发环境配置 128 6.2.1 HBase配置前的准备工作 128 6.2.2 HBase配置基础知识 128 6.2.3 HBase集群环境配置 130 6.3 HBase Shell 134 6.4 HBase API 139 6.4.1 管理表结构 139 6.4.2 管理表信息 142 6.4.3 信息查询 143 6.5 HBase表设计 145 6.6 本章小结 145 6.7 习题 145 第7章 大数据仓库应用技术 147 7.1 Hive基础知识 148 7.1.1 Hive产生背景 148 7.1.2 Hive体系结构 148 7.1.3 Hive执行流程 150 7.1.4 Hive应用场景 151 7.2 Hive开发环境配置 151 7.2.1 Hive配置基础知识 151 7.2.2 Hive安装模式 151 7.2.3 Hive远程安装模式实战 153 7.3 Hive命令 155 7.3.1 Hive交互命令界面Shell简介 155 7.3.2 Hive非交互界面执行简介 156 7.4 Hive开发基础知识 157 7.4.1 数据类型与文本文件编码 158 7.4.2 数据读取模式 162 7.4.3 Hive关键字 162 7.5 Hive基本操作 163 7.5.1 Hive数据库管理操作 163 7.5.2 Hive表管理操作 164 7.5.3 Hive查询基本语法规则 165 7.5.4 Hive基本查询 165 7.5.5 Hive高级查询 167 7.5.6 Hive JOIN查询 173 7.6 Hive API 175 7.7 本章小结 176 7.8 习题 176 第8章 大数据实时应用技术 177 8.1 Storm基础知识 177 8.1.1 Storm基本概述 178 8.1.2 Storm特征 178 8.1.3 Storm系统结构 179 8.1.4 Storm运行原理 180 8.1.5 Storm应用场景 180 8.2 Storm开发环境安装 181 8.2.1 Storm配置基础知识 181 8.2.2 Storm快速部署 181 8.2.3 Storm集群部署 183 8.3 Storm 编程 185 8.4 Storm实现约车大数据分析 190 8.4.1 模拟生成实时约车数据 191 8.4.2 Flume整合Kafka 192 8.4.3 约车数据采集后基于Storm进行实时处理 195 8.5 本章小结 200 8.6 习题 200
本书紧紧围绕通识教育核心理念,系统介绍大数据、人工智能、云计算、物联网、区块链、元宇宙等技术的相关知识,旨在培...
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数...
本书详细阐述了培养具有数字素养的综合型人才所需要的相关知识。作为通识类课程教材,本书在确定知识布局时,紧紧围绕...
本书是机器学习的入门教材,讲述机器学习的主流算法原理及其应用。全书着重对线性回归、Logistic回归、朴素贝...
本书将引导读者进入Python大数据财务分析的领域,从基础知识入手,逐步深入到高级应用。通过对本书内容的学习和...
我要评论