在威廉上一篇文章中提到Hadoop这个挺热门的大数据处理软件,现在我们就来聊一聊它
Hadoop是由Doug Cutting创始,起源于Apache Nutch项目,后者是一个开源的搜索引擎
从头开始建一个搜索引擎是个了不起的想法,Doug和他的团队面临的困难不光是搜索引擎算法,更是处理和索引抓取到的网页所需要的硬件资源;据他们估计,一个支持10亿个页面索引的系统需要50万美元的初期硬件投入,每月的运行费用还要3万美元;但他们仍相信这是一个有价值的目标,因为可以最终实现搜索引擎算法普及化
Hadoop的发展基本是这么一个时间线:
-
2002年:Nutch项目开始,一个可工作的抓取工具和搜索系统很快浮出水面,但问题也随之出现,他们的架构无法在可承受的成本之内扩展到拥有数十亿网页的因特网中去
-
2003年:Google发布GFS分布式文件系统论文,介绍了一种将低配主机组成集群来进行大容量文件分布存储的实现方式
-
2004年:Nutch基于GFS开发了NDFS(Nutch Distributed File System)系统;同年,Google发布了另一篇论文介绍MapReduce算法,提供了一种处理大容量文本的有效方法
-
2005年:Nutch有了第一个可工作的MapReduce应用,所有主要算法都被移植到MapReduce和NDFS上来运行
-
2006年:Nutch中基于MapReduce和NDFS实现的应用被独立出来成为Lucene子项目,又称Hadoop;同年,Doug加入Yahoo,后者提供专门团队将Hadoop发展成一个可在网络上运行的系统
-
2008年:Hadoop成为Apache顶级项目;同年,其打破世界纪录,在209秒钟内排序1TB数据,打败了前一年的冠军297秒;这个纪录在09年又被刷新到62秒
随着开源Hadoop项目受到追捧,越来越多的公司开始使用它,并推出了自己的定制商业版本;从Hadoop长长的用户名单中,我们可以看到Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft,、Apple、 HP、淘宝、百度等等
关于开源,互联网领域有个有趣的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”;很欣喜的看到有越来越多的开源项目,另外,开源的license对商用的兼容性也在提高,所以各位同学,开源的可不都是免费的哦
Hadoop名字的由来:据Doug声称,Hadoop是他孩子给一头吃饱了的棕黄色大象起的名字;Hadoop生态系统中还有不少以动物命名的软件,如Pig、Hive、Oozie,而统筹管理的干脆就叫ZooKeeper,这么萌到底是要闹哪样 -_-b