HDFS原理与应用

本文介绍了Hadoop分布式文件系统(HDFS)的基本概念、架构原理和关键设计,包括NameNode和DataNode的角色、心跳机制、文件块的存储与复制。此外,文章还讨论了HDFS为何适合存储大文件而不适合小文件的原因,并列举了HDFS在数据清洗和机器学习等领域的应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 HDFS基本介绍

一些基本概念
在Hadoop中,HDFS是存储层,YARN是调度层,MapReduce是应用层

HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)

分布式文件系统有大容量、高可靠和低成本的特点。其中Client端通过协议访问层与Server端通讯

分布式存储系统有对象存储、文件存储、块存储和数据库

HDFS功能特性

  • 分布式:受GFS启发,用Java实现的开源系统,没有实现完整的POSIX文件系统语义
  • 容错:自动处理、规避多种错误场景,例如常见的网络错误、机器宕机等。
  • 高可用:一主多备模式实现元数据高可用,数据多副本实现用户数据的高可用
  • 高吞吐:Client直接从DataNode读取用户数据,服务端支持海量client并发读写
  • 可扩展:支持联邦集群模式,DataNode数量可达10w级别
  • 廉价:只需要通用硬件,不需要定制高端的昂贵硬件设备

2 架构原理

HDFS组件
Client/SDK <-> NameNode(Active/Standby) <-> DataNode

Client写流程

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值