简介
HBase是Hadoop的生态系统,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候,请考虑使用HBase!
参考:https://wiki.imooc.com/hbase/introduce.html
官网:https://hbase.apache.org/
官网中文页(官网页面中有链接):http://abloz.com/hbase/book.html
hbase体系
使用Hbase,需要先安装HDFS
分布式文件系统和Zookeeper
注册中心。
Hbase
包括主进程master
和多个regionServer
子进程。
当表数据量很大的时候,可以对表进行分区,分成多个region
。regionServer
负责管理region
。
regionServer
会将分区的运行情况报告给master
,方便master
随时将宕机的region分配到其他的region
。
regionServer
也会将分区的运行情况报告给zookeeper
。
hbase版本提供
hbase前置环境
hbase在hadoop2.x的依赖,参考官网版本要求 https://hbase.apache.org/book.html#quickstart 选择一下版本:
- JDK1.8
- Hadoop-2.7.6以上
- Zookeeper-3.4.5