1.1　Hadoop来源和动机

Hadoop采用Java语言开发，是对Google的MapReduce、GFS（Google File System）和Bigtable等核心技术的开源实现，由Apache软件基金会支持，是以Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce（Google MapReduce）为核心，以及一些支持Hadoop的其他子项目的通用工具组成的分布式计算系统。主要用于海量数据（大于1TB）高效的存储、管理和分析。HDFS的高容错性、高伸缩性等优点让用户可以在价格低廉的硬件上部署Hadoop，形成分布式系统，是企业选择处理大数据集工具的不二选择。MapReduce让用户可以在不了解分布式底层细节的情况下开发分布式程序，并可以充分利用集群的威力高速运算和存储。这一结构实现了计算和存储的高度耦合，十分有利于面向数据的系统架构，因此已成为大数据技术领域的事实标准。
简单来说，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”图1-1所示是Hadoop的Logo。

图像说明文字

Hadoop最早起源于Nutch。Nutch是基于Java实现的开源搜索引擎，2002年由Doug Cutting领衔的Yahoo！团队开发。2003年，Google在SOSP（操作系统原理会议）上发表了有关GFS（Google File System，Google文件系统）分布式存储系统的论文；2004年，Google在OSDI（操作系统设计与实现会议）上发表了有关MapReduce分布式处理技术的论文。Cutting意识到，GFS可以解决在网络抓取和索引过程中产生的超大文件存储需求的问题，MapReduce框架可用于处理海量网页的索引问题。但是，Google仅仅提供了思想，并没有开源代码，于是，在2004年，Nutch项目组将这两个系统复制重建，形成了Hadoop，成为真正可扩展应用于Web数据处理的技术。
如图1-2所示，梳理了Hadoop技术发展与演进中的重要事件，以便于大家理解Hadoop技术从简单的技术雏形到完整的技术架构的发展历程。

图像说明文字

Hadoop大事记

2004 年：最初版本，现在称为HDFS和MapReduce。因Google发表了相关论文，由Doug Cutting和Mike Cafarella实施, Doug Cutting、Mike Cafarella两人基于GFS实现了Nutch分布式文件系统NDFS。
2005 年：年初Doug Cutting和Mike Cafarella基于Google的MapReduce公开论文在Nutch上实现了MapReduce系统，12月Hadoop被引入到Nutch，在20个节点上稳定运行。
2006 年 2月：NDFS和MapReduce移除Nutch成为Lucene的一个子项目，称为Hadoop，NDFS重新命名为HDFS（Hadoop Distribute File System），然后Apache Hadoop项目正式启动，以支持HDFS和MapReduce的独立发展，开启了以MapReduce和HDFS为基础的分布式处理架构的独立发展时期。
2006 年 2月：雅虎的网格计算团队开始采用Hadoop。
2007 年 4月：研究集群达到1000个节点。
2007 年11月：纽约时报使用基于亚马逊EC2云服务器的Hadoop应用将往年的累积4TB的报纸扫描文档制作成PDF文件，仅耗时24小时花费240美元，向公众证明了Hadoop技术成本低、效率高的大数据处理能力。
2008 年 1月：Hadoop升级成为Apache顶级项目，截止此时，Hadoop发展到0.15.3版本。
2008 年 2月：Hadoop首次验证了其具有处理Web级规模大数据的能力，雅虎公司采用Hadoop集群作为搜索引擎的基础架构，并将其搜索引擎成功部署在一个拥有10000个节点的Hadoop集群上。
2009 年 3月：17个集群总共24000台机器。
2010 年 2月：Apache发布Hadoop 0.20.2版本，该版本后来演化为Hadoop 1.x系列，获得了业界更加广泛的关注。
2010 年 5月：Avro数据传输中间件脱离Hadoop项目，成为Apache顶级项目。
2010 年 5月：Facebook披露他们建立了当时世界上最大规模的Hadoop集群，该集群拥有高达21 PB的数据存储能力。8月份，Apache发布Hadoop 0.21.0版本，该版本与0.20.2版本API兼容。
2010 年 9月：Hive数据仓库和Pig数据分析平台脱离Hadoop项目，成为Apache顶级项目。
2011 年 1月：ZooKeeper管理工具从Hadoop项目中孵化成功，成为Apache顶级项目。
2011 年 5月：Hcatalog数据存储系统的1.0版本发布，使得Hadoop的数据存储更加便捷高效。
2011 年11月：Apache发布Hadoop 0.23.0版本，该版本后来成为一个系列，一部分功能演化成Hadoop 2.x系列，新增HDFS Federation和YARN（Yet Another Resource Negotiator）框架，也叫MapReduce2或MRv2功能特性。
2011 年12月：Hadoop发布1.0.0版本，标志着Hadoop技术进入成熟期。
2012 年 2月：Apache发布Hadoop 0.23.1版本，该版本为0.23.0版本号的延续，成功集成了HBase、Pig、Oozie、Hive等功能组件。
2012 年 5月：Hadoop 2.x系列的第一个alpha版Hadoop 2.0.0发布，该版本由Hadoop 0.23.2新增了HDFS NameNode的HA（High Availability）功能演化而得，即产生了Hadoop 2.0.0和Hadoop 0.23.2两个版本，同时也诞生了两个分支系列，即Hadoop 2.x系列和Hadoop 0.23.x系列。此外，完善了Hadoop 2.0.0和Hadoop 0.23.2中YARN框架的手动容错功能和HDFS Federation机制。
2013 年 5月：Cloudera释放了Impala1.0版本，其根本的设计理念是与Hadoop无缝的整合，共同使用一个储存池、元数据模型、安全框架以及系统资源集，能让Hadoop用户在MapReduce和其他的框架上做更好的SQL查询。
2013 年 8月：Hadoop 2.1.0版本发布，Hadoop 2.x系列中的第一个beta版，该版本新增了很多功能，基本上已确定Hadoop 2.x系列的未来整体架构，功能已趋稳定，提供了组件之间进行通信的大量API，支持HDFS镜像（HDFS snapshots），支持在微软的Windows系统上运行Hadoop，提供了与Hadoop 1.x系列兼容的MapReduce API。
2014 年2月：Hadoop2.3.0发布。新特性包括支持HDFS的混合存储分级，可以集中管理HDFS内存里的缓存数据，通过HDFS中的YARN分布式缓存简化MapReduce分配及一些Bug修正。
2014 年 4月：Hadoop2.4.0发布。包括HDFS支持ACL权限控制机制、容易升级、支持支持https访问、支持ResourceManager因故障挂掉重启后，可以恢复之前正在运行的应用程序（用户不需重新提交）、增加了Yarn共享信息存储模块ATS等。
2014 年 8月：Hadoop2.5.0发布。新特性包括扩展文件属性、改进HDFS的Web UI，提升Yarn共享信息存储模块ATS安全性，更丰富的YARN REST API等。
2014 年11月：Hadoop 2.6.0版本发布，Hadoop 2.x系列发展进程的又一个里程碑，针对Hadoop三大核心模块添加了新功能特性，如common模块完善了密钥管理服务器功能和认证提供服务器功能，HDFS模块支持异构存储功能、归档存储功能、透明数据传输加密功能、支持动态添加或减少数据节点存储容量而不需重启机器，YARN模块支持长时间运行服务、支持滚动升级、支持将任务分配到特定机器节点。

Hadoop是基于以下思想设计的。
（1）可以通过普通机器组成的服务器群来分发以及处理数据，这些服务器群总计可达数千个节点，使高性能服务成本极度降低（Economical）。
（2）极度减小服务器节点失效导致的问题，不会因某个服务器节点失效导致工作不能正常进行，能实现该方式的原因是Hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务，实现了工作可靠性（Reliable）和弹性扩容能力（Scalable）。
（3）能高效率（Efficient）地存储和处理千兆字节（PB）的数据，通过分发数据，Hadoop可以在数据所在的节点上并行地处理它们，这使得处理非常的快速。如假设需要grep（一种强大的文本搜索工具，它使用正则表达式搜索文本，并把匹配的行打印出来）。一个10 TB的巨型文件，在传统系统上，将需要很长时间。但是在Hadoop上，因采用并行执行机制，可以大大提高效率。
（4）文件不会被频繁写入和修改；机柜内的数据传输速度大于机柜间的数据传输速度；海量数据的情况下移动计算比移动数据更高效（Moving Computation is Cheaper than Moving Data）。

1.2　Hadoop体系架构

Hadoop实现了对大数据进行分布式并行处理的系统框架，是一种数据并行方法。由实现数据分析的MapReduce计算框架和实现数据存储的分布式文件系统（HDFS）有机结合组成，它自动把应用程序分割成许多小的工作单元，并把这些单元放到集群中的相应节点上执行，而分布式文件系统（HDFS）负责各个节点上的数据的存储，实现高吞吐率的数据读写。Hadoop的基础架构如图1-3所示。

图像说明文字

分布式文件系统（HDFS）是Hadoop的储存系统，从用户角度看，和其他的文件系统没有什么区别，都具有创建文件、删除文件、移动文件和重命名文件等功能。MapReduce则是一个分布式计算框架，是Hadoop的一个基础组件，分为Map和Reduce过程，是一种将大任务细分处理再汇总结果的一种方法。
MapReduce的主要吸引力在于：它支持使用廉价的计算机集群对规模达到PB级的数据集进行分布式并行计算，是一种编程模型。它由Map函数和Reduce函数构成，分别完成任务的分解与结果的汇总。MapReduce的用途是进行批量处理，而不是进行实时查询，即特别不适用于交互式应用。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。
HDFS中的数据具有“一次写，多次读”的特征，即保证一个文件在一个时刻只能被一个调用者执行写操作，但可以被多个调用者执行读操作。HDFS是以流式数据访问模式来存储超大文件，运行于商用硬件集群上。HDFS具有高容错性，可以部署在低廉的硬件上，提供了对数据读写的高吞吐率。非常适合具有超大数据集的应用程序。HDFS为分布式计算存储提供了底层支持，HDFS与MapReduce框架紧密结合，是完成分布式并行数据处理的典型案例。
目前，Hadoop已经发展成为包含很多项目的集合，形成了一个以Hadoop为中心的生态系统（Hadoop Ecosystem），如图1-4所示。此生态系统提供了互补性服务或在核心层上提供了更高层的服务，使Hadoop的应用更加方便快捷。

图像说明文字

ETL Tools是构建数据仓库的重要环节，由一系列数据仓库采集工具构成。
BI Reporting（Business Intelligence Reporting，商业智能报表）能提供综合报告、数据分析和数据集成等功能。
RDBMS是关系型数据库管理系统。RDBMS中的数据存储在被称为表（table）的数据库中。表是相关的记录的集合，它由列和行组成，是一种二维关系表。
Pig是数据处理脚本，提供相应的数据流（Data Flow）语言和运行环境，实现数据转换（使用管道）和实验性研究（如快速原型），适用于数据准备阶段。Pig运行在由Hadoop基本架构构建的集群上。
Hive是基于平面文件而构建的分布式数据仓库，擅长于数据展示，由Facebook贡献。Hive管理存储在HDFS中的数据，提供了基于SQL的查询语言（由运行时的引擎翻译成MapReduce作业）查询数据。Hive和Pig都是建立在Hadoop基本架构之上的，可以用来从数据库中提取信息，交给Hadoop处理。
Sqoop是数据接口，完成HDFS和关系型数据库中的数据相互转移的工具。
HBase是类似于Google BigTable的分布式列数据库。HBase和Avro于2010年5月成为顶级Apache项目。HBase支持MapReduce的并行计算和点查询（即随机读取）。HBase是基于Java的产品，与其对应的基于C++的开源项目是Hypertable，也是Apache的项目。
Avro是一种新的数据序列化（serialization）格式和传输工具，主要用来取代Hadoop基本架构中原有的IPC机制。
Zookeeper用于构建分布式应用，是一种分布式锁设施，提供类似Google Chubby（主要用于解决分布式一致性问题）的功能，它是基于HBase和HDFS的，由Facebook贡献。
Ambari是最新加入Hadoop的项目，Ambari项目旨在将监控和管理等核心功能加入Hadoop项目。Ambari可帮助系统管理员部署和配置Hadoop、升级集群以及监控服务。
Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Mahout是机器学习和数据挖掘的一个分布式框架，区别于其他的开源数据挖掘软件，它是基于Hadoop之上的；Mahout用MapReduce实现了部分数据挖掘算法，解决了并行挖掘的问题，所以Hadoop的优势就是Mahout的优势。

1.3　Hadoop与分布式开发

分布式，从字面的意思理解是指物理地址的分开，如主分店：主机在纽约，分店在北京。分布式就是要实现在不同的物理位置空间中实现数据资源的共享与处理。如金融行业的银行联网、交通行业的售票系统、公安系统的全国户籍管理等，这些企业或行业单位之间具有地理分布性或业务分布性，如何在这种分布式的环境下实现高效的数据库应用程序的开发是一个重要的问题。
典型的分布式开发采用的是层模式变体，即松散分层系统（Relaxed Layered System）。这种模式的层间关系松散，每个层可以使用比它低层的所有服务，不限于相邻层，从而增加了层模式的灵活性。较常用的分布式开发模式有客户机/服务器开发模式（C/S开发模式）、浏览器/服务器开发模式（B/S开发模式）、C/S开发模式和B/S开发模式的综合应用。C/S开发模式如图1-5所示，B/S开发模式如图1-6所示。

图像说明文字

在图1-6中，多了一层Web层，它主要用于创建和展示用户界面。现实中经常把Web服务器层和应用服务器层统称为业务逻辑层，也就是说在B/S开发模式下，一般把业务逻辑放在了Web服务器中。因此分布式开发主要分为3个层次架构，即用户界面、业务逻辑、数据库存储与管理，3个层次分别部署在不同的位置。其中用户界面实现客户端所需的功能，B/S架构的用户界面是通过Web浏览器来实现的，如IE 6.0。由此可看出，B/S架构的系统比C/S架构系统更能够避免高额的投入和维护成本。业务逻辑层主要是由满足企业业务需要的分布式构件组成的，负责对输入/输出的数据按照业务逻辑进行加工处理，并实现对数据库服务器的访问，确保在更新数据库或将数据提供给用户之前数据是可靠的。数据库存储与管理是在一个专门的数据库服务器上实现的，从而实现软件开发中业务与数据分离，实现了软件复用。这样的架构能够简化客户端的工作环境并减轻系统维护和升级的成本与工作量。

图像说明文字

分布式开发技术已经成为建立应用框架（Application Framework）和软构件（Software Component）的核心技术，在开发大型分布式应用系统中表现出强大的生命力，并形成了三项具有代表性的主流技术，一个是微软公司推出的分布式构件对象模型（Distributed Component Object Model，DCOM），即.NET核心技术。另一个是SUN公司推出的Enterprise Java Beans（EJB），即J2EE核心技术。第三个是对象管理组织（Object Management Group，OMG）组织推出的公共对象请求代理结构（Common Object Request Broker Architecture，CORBA）。
当然，不同的分布式系统或开发平台，其所在层次是不一样的，完成的功能也不一样。并且要完成一个分布式系统有很多工作要做，如分布式操作系统、分布式程序设计语言及其编译（解释）系统、分布式文件系统和分布式数据库系统等。所以说分布式开发就是根据用户的需要，选择特定的分布式软件系统或平台，然后基于这个系统或平台进一步的开发或者在这个系统上进行分布式应用的开发。
Hadoop是分布式开发的一种，它实现了分布式文件系统和部分分布式数据库的功能。Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储和管理，Hadoop中的并行编程框架MapReduce能够让用户编写的Hadoop并行应用程序运行更加简化，使得人们能够通过Hadoop进行相应的分布式开发。
通过Hadoop进行分布式开发，要先知道Hadoop的应用特点。Hadoop的优势在于处理大规模分布式数据的能力，而且所有的数据处理作业都是批处理的，所有要处理的数据都要求在本地，任务的处理是高延迟的。MapReduce的处理过程虽然是基于流式的，但是处理的数据不是实时数据，也就是说Hadoop在实时性数据处理上不占优势，因此，Hadoop不适合于开发Web程序。
Hadoop上的并行应用程序开发是基于MapReduce编程框架的，不需要考虑任务的具体分配是什么样的，只需要用户根据MapReduce提供的API编写特定的mapper与reducer函数就可以和机器交互，然后把任务交给系统就可以了。显然，仅仅依赖HDFS和MapReduce能够完成的功能是有限的。但随着Hadoop的快速发展，很多组件也伴随着它应运而生。如Hive，它是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，可以通过类SQL语句快速实现简单的MapReduce统计。这样，开发者就不必开发专门的MapReduce应用，十分适合对数据仓库的统计分析。

1.4　Hadoop行业应用案例分析

随着企业的数据量的迅速增长，存储和处理大规模数据已成为企业的迫切需求。Hadoop作为开源的云计算平台，已引起了学术界和企业的普遍兴趣。下面将选取具有代表性的Hadoop商业应用案例进行分析，让读者了解Hadoop在企业界的应用情况。

1.4.1 Hadoop在门户网站的应用

关于Hadoop技术的研究和应用，Yahoo！始终处于领先地位，它将Hadoop应用于自己的各种产品中，包括数据分析、内容优化、反垃圾邮件系统、广告的优化选择、大数据处理和ETL等。同样，在用户兴趣预测、搜索排名、广告定位等方面得到了充分的应用。
Yahoo！在主页个性化方面，实时服务系统通过Apache从数据库中读取相应的映射，并且每隔5分钟Hadoop集群就会基于最新数据重新排列内容，每隔7分钟则在页面上更新内容。在邮箱方面，Yahoo！利用Hadoop集群根据垃圾邮件模式为邮件计分，并且每隔几个小时就在集群上改进反垃圾邮件模型，集群系统每天还可以推动50亿次的邮件投递。在Yahoo！的Search Webmap应用上，它运行在超过10 000台机器的Linux系统集群里，Yahoo！的网页搜索查询使用的就是它产生的数据。
Yahoo！在Hadoop中同时使用了Pig和Hive，主要用于数据准备和数据表示。数据准备阶段通常被认为是提取、转换和加载（Extract Transform Load，ETL）数据的阶段。这个阶段需要装载和清洗原始数据，并让它遵守特定的数据模型，还要尽可能地让它与其他数据源结合等。这一阶段的客户一般都是程序员、数据专家或研究者。数据表示阶段一般指的都是数据仓库，数据仓库存储了客户所需要的产品，客户会根据需要选取合适的产品。这一阶段的客户可能是系统的数据工程师、分析师或决策者。

1.4.2 Hadoop在搜索引擎中的应用

百度作为全球最大的中文搜索引擎公司，提供基于搜索引擎的各种产品，包括以网络搜索为主的功能性搜索，以贴吧为主的社区搜索，针对区域、行业的垂直搜索、MP3音乐搜索以及百科等，几乎覆盖了中文网络世界中所有的搜索需求。
百度对海量数据处理的要求是比较高的，要在线下对数据进行分析，还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理，Hadoop就是很好的选择。在百度，Hadoop主要应用于日志的存储和统计；网页数据的分析和挖掘；商业分析，如用户的行为和广告关注度等；在线数据的反馈，及时得到在线广告的点击情况；用户网页的聚类，分析用户的推荐度及用户之间的关联度。
百度现在拥有3个Hadoop集群，总规模在700台机器左右，其中有100多台新机器和600多台要淘汰的机器（它们的计算能力相当于200多台新机器），不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右，处理数据约120 TB/天。

1.4.3 Hadoop在电商平台中的应用

在eBay上存储着上亿种商品的信息，而且每天有数百万种的新商品在增加，因此需要用云系统来存储和处理PB级别的数据，而Hadoop则是个很好的选择。Hadoop是建立在商业硬件上的容错、可扩展、分布式的云计算框架，eBay利用Hadoop建立了一个大规模的集群系统——Athena，它被分为5层，如图1-7所示。

图像说明文字

Hadoop核心层包括Hadoop运行时环境、一些通用设施和HDFS，其中文件系统为读写大块数据而做了一些优化，如将块的大小由128 MB改为256 MB。MapReduce层为开发和执行任务提供API和控件。数据获取层的主要框架是HBase、Pig和Hive。
除了以上案例，在很多其他的应用中都有Hadoop的身影，在Facebook、电信等业务中Hadoop都发挥着举足轻重的作用。由此可以看出Hadoop分布式集群在大数据处理方面有着无与伦比的优势，它的特点（易于部署、代价低、方便扩展、性能强等）使得它能很快地被业界接受，生存能力也非常的强。实际上除商业上的应用外，Hadoop在科学研究上也发挥了很大的作用，例如数据挖掘、数据分析等。
虽然Hadoop在某些处理机制上存在者不足，如实时处理，但随着Hadoop发展，这些不足正在被慢慢弥补，最新版的Hadoop已经开始支持了Storm架构（一种实时处理架构）。随着时间的推移，Hadoop会越来越完善，无论用于电子商务还是科学研究，都是很不错的选择。

1.5　小结

第1节介绍了Hadoop的起源与Hadoop的发展历程以及什么是Hadoop。Hadoop是Apache旗下的一个开源计算框架，具有高可靠性和良好的扩展性，可以部署在大量成本低廉的硬件设备（PC）上，为分布式计算任务提供底层支持。
第2节介绍了Hadoop的体系架构，Hadoop由HDFS、MapReduce、HBase、Hive、Pig和Zookeeper等组件组成，并分别介绍了这些组件的基本功能。
第3节介绍了一般的分布式开发模式，并说明了Hadoop的分布式开发的不同。
第4节介绍了Hadoop的一些行业应用，如门户网站的应用、搜索引擎的应用和电商平台中的应用等，其实除了这些，还有很多知名的企业也在使用Hadoop，如FaceBook等，Hadoop的市场应用是十分广泛的。

本文仅用于学习和交流目的，不代表人邮教育社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。