1 HDFS基本介绍
一些基本概念:
在Hadoop中,HDFS是存储层,YARN是调度层,MapReduce是应用层
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)
分布式文件系统有大容量、高可靠和低成本的特点。其中Client端通过协议访问层与Server端通讯
分布式存储系统有对象存储、文件存储、块存储和数据库
HDFS功能特性:
- 分布式:受GFS启发,用Java实现的开源系统,没有实现完整的POSIX文件系统语义
- 容错:自动处理、规避多种错误场景,例如常见的网络错误、机器宕机等。
- 高可用:一主多备模式实现元数据高可用,数据多副本实现用户数据的高可用
- 高吞吐:Client直接从DataNode读取用户数据,服务端支持海量client并发读写
- 可扩展:支持联邦集群模式,DataNode数量可达10w级别
- 廉价:只需要通用硬件,不需要定制高端的昂贵硬件设备
2 架构原理
HDFS组件:
Client/SDK <-> NameNode(Active/Standby) <-> DataNode
Client写流程: