
Hadoop Ecosystem
HackerDotCn
If not me, who?
If not now, when?
If I can, why not?
展开
-
HBase Basic
概念官网:http://hbase.apache.org/ 即为Hadoop DataBase,HBase是基于Hadoop的,面向列的存储,仍然是基于HDFS。 面向列的存储。初始设计几个列簇(一般不超过5个),但不设计具体的列。 NoSQL的代表。 特点: - 多维的 - 与传统数据库不同,每行可以有不同的列集合HMster RegionServer原创 2017-09-29 06:24:32 · 338 阅读 · 0 评论 -
Hadoop Setup
使用Docker方式部署 参考链接: http://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/ VMware虚拟机搭建 最早接触的虚拟机就是VMware,先下载好Linux镜像,我用的CentOS7.3,安装好系统之后再下好各种基础软件压缩包,然后拷贝三份,这样一共四个节点,一个主节点,一个主备。 准备工作...原创 2017-09-29 06:25:43 · 598 阅读 · 0 评论 -
Hadoop调试问题
在Windows上调试mapreduce程序,一个很简单的wordcount程序竟然收到了阻碍,果然大数据应用不适合在Windows上玩,但通过查资料总算解决了。 先是报错:Exception in thread "main" java.io.IOException: (null) entry in command string: null chmod 0700,看着像权限问题,发现在磁盘根目录下原创 2017-10-08 10:02:58 · 456 阅读 · 0 评论 -
Hadoop-YARN Basic
Resource SchedulerFIFO最初的,现在已经很少用Capacity层级调度,有一个root队列,其他都是root子队列。 支持标签调度更改队列属性或配置时,修改CapacityScheduler.xml并运行命令yarn rmadmin -refreshQueues即可。Fair可以内存资源或者CPU和内存两种资源为依据进行公平调度。如下配置资源调度器为FairScheduler并原创 2017-10-08 21:32:33 · 223 阅读 · 0 评论 -
Hadoop-HDFS Basic
基本概念源于Google的GFS论文。优缺点优势: 高容错性 适合批处理 适合大数据处理 流式数据访问 可构建在廉价机器上 缺点: 不适用小文件存取 节点内存有限,可存储的block数目有限;小文件消耗大量寻道时间 无法做到并发写、文件随机修改 无法做到低延迟 相对以文件存储的分布式系统,以block为单位存储的HDFS有什么优势? 高容错性 方便负载均衡 基本结构主从结构 主:NameNode(原创 2017-10-03 07:06:02 · 304 阅读 · 0 评论 -
MapReduce
http://blog.csdn.net/zr459927180/article/details/51249177原创 2017-12-11 23:22:49 · 174 阅读 · 0 评论