分布式大数据存储：向上索引法

最新推荐文章于 2025-03-17 17:27:41 发布

志_祥

最新推荐文章于 2025-03-17 17:27:41 发布

阅读量1.2k

点赞数

分类专栏：系统架构文章标签：大数据存储数据结构分布式文件系统数据存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cteng/article/details/77995390

版权

系统架构专栏收录该内容

49 篇文章

订阅专栏

本文探讨了Hadoop/HDFS及HBase等大数据系统中元数据管理的问题与解决方案，包括引入容器封装、自动切分及二级元数据的概念，并讨论了这些方法对数据访问的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Hadoop／HDFS里，namenode负责记录datanode的文件元信息，这样当小文件太多的情况下，namenode可能存在DoS漏洞。在实际使用中，namenode的SOP问题由增加冗余备份节点解决，小文件的问题则由引入容器封装的文件格式来解决。

在HBase这类基于Master／Slave架构的大数据存储系统中，当出现数据倾斜（分布不均衡）时，将根据key的range自动切分，切分后的元数据信息存储在master节点中。同样，这里元数据节点的数据存储也会存在SOA问题。最好是能够做到：

自动引入“二级元数据”的所谓概念，即从原始数据生成的一级管理型索引数据称为一级元数据，而对一级元数据的继续向上增加索引信息就称为2级元数据。如此可以无限扩容，再也没有SOP的问题。

此方法带来的一个副作用是数据访问路径变长了。

这里我只是将原始linux的ext文件系统的多级inode指针反过来使用。重要的观点是：这个向上增加元数据索引信息的过程是自动的，它也可以根据数据的实际分布情况自动塌陷，有如数据结构里的左式堆之类自动平衡的树的概念。

目前似乎并没有见到使用这种方法给元数据扩容的大数据系统。像DHT不过是flat index。DHT理论上仍然可能存在数据倾斜的问题，只不过vnode的使用大大降低了这种可能性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。