数据处理-Hadoop基础概念

Ayu阿予

已于 2024-04-25 13:13:47 修改

阅读量259

点赞数 6

分类专栏： # DAPT 文章标签： hadoop 大数据分布式

于 2024-04-23 18:50:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Coder_OreoZ/article/details/138135059

版权

DAPT 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了Hadoop的基础组成部分（HDFS和MapReduce），强调其高可靠性、高效性和容错性，以及分布式文件系统的概念，包括NameNode和DataNode的角色。还涵盖了Hadoop的不同操作模式，如单机、伪分布和分布模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的两个基础组件是HDFS和MapReduce，同时它采用了分布式集群的方法来应对大数据处理。在本篇博客我将具体阐述Hadoop的相关基础概念，以加深自己对其的理解。

Hadoop的组成

话不多说，上图
请添加图片描述
Others：包括Common, Avro, Zookeeper, HBase, Hive, Chukwa, Pig, etc.（看不懂？没关系，我也看不懂，记住主要两个组件HDFS和MapReduce）

Hadoop特性

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

Hadoop操作模式

单机模式
伪分布模式
分布模式

分布式文件系统

Hadoop是一台Master多个Slaver的形式，这台Master也同样被称作NameNode(名称节点)，Slaver被称作DataNode(数据节点)。
到现在为止，可以理解为这个样子：
请添加图片描述
Hadoop的容错机制有一条是这样的：每一个数据都要备份在三个不同的DataNode上面，这样如果有一个DataNode出现了问题，还有备份。那么同样考虑到NameNode上面呢？假如NameNode出现了错误，那肯定也需要有一个NameNode的备份来替补它的位置。鉴于只存在一个NameNode，所以出现了另外一个SecondaryNameNode，作用就是NameNode的备份。

拓展阅读

https://blog.csdn.net/weixin_42837961/article/details/105493561

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ayu阿予 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。