
分布式并行计算
overstack
中大研究生喜欢linux后台技术各种架构研究方向是机器学习和数据挖掘
展开
-
Hadoop 2.0中的基本术语解释
在阅读Hadoop 2.0的相关资料时,很多人将一些概念混淆了,本文将对Hadoop 2.0涉及到的术语进行比较全面的介绍。 (1) Hadoop 1.0 第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应H转载 2012-12-27 01:06:20 · 586 阅读 · 0 评论 -
相比于MRv1,YARN带来的优势是什么?
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。 实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200台的称为转载 2012-12-27 01:05:24 · 869 阅读 · 0 评论 -
python for hadoop 新手入门
发现了一个很好的python for hadoop的入门,适合没有什么hadoop基础的人学习:http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/ 还有一个也是类似文档:http://cs.smith.edu/dftwiki/index.php/Hadoop_Tutorial_2原创 2013-06-18 20:12:13 · 1544 阅读 · 0 评论 -
Hadoop Streaming框架使用
Hadoop Streaming框架使用(一) Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单 说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce转载 2013-06-27 14:33:38 · 1614 阅读 · 0 评论