本书以使用Kettle工具实现ETL流程为目标,将ETL知识点与项目任务相结合,配合真实案例,按照ETL的流程,循序渐进地介绍ETL数据整合与处理的相关内容。全书共6个项目,项目1介绍ETL概念和ETL工具等;项目2以获取食品销售源数据为例,介绍获取不同类型源数据的方法,并说明它们之间的差别;项目3以整合和处理某大型供应链集团的食品销售数据为例,介绍从获取多份源数据开始,使用排序、合并、剪切、拆分、删除、过滤、替换和输出等一系列与ETL流程相匹配的处理方法,整合和处理出一份符合项目阶段目标要求的数据的方法,帮助读者快速理解和掌握ETL;项目4以项目3的阶段目标数据作为源数据,介绍进行数据计算和统计的方法,以及将统计结果输出到不同类型的数据文件中的方式,帮助读者从业务上理解数据计算和统计的要求,以及输出结果的方法;项目5介绍Kettle的任务执行方式,构建任务流程,设定调度时间,自动执行项目3中整合和处理食品销售数据的任务;项目6介绍无人售货机项目,通过项目案例的形式,帮助读者将所学知识融会贯通。
本书可以作为高校大数据相关专业的教材,也可以作为ETL爱好者的自学用书。
我要评论