分布式计算演变_分布式计算出现的时间-CSDN博客

本文链接：https://blog.csdn.net/jdk2010/article/details/109164656

本文探讨了大数据计算（分布式计算）的发展历程，从分布式存储的HDFS，到分布式计算的MapReduce及其演进，包括批处理引擎、流计算引擎和流/批计算引擎的演变。此外，还提到了KV存储、数据中间件和调度系统在大数据计算中的作用，以及关联知识如Hadoop和三本经典论文。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首发微信公众号:二进制社区,转载请联系: binary0101@126.com

现在处于大数据的时代，各行业在数字化变革过程中，积累了海量的数据，为了从这些数据中获取更多的商业价值和辅助做出更有建设行的商业决策，大数据的计算是当前非常火热的技术领域，本文就大数据计算（分布式计算）的发展历史做一下分析和回顾。

分布式存储

数据计算首先依赖于数据存储，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的机器。当数据达到TB/PB级时，海量数据存储需要变更，由次发展出了Hadoop生态，其中包括分布式文件系统：HDFS（Hadoop Distributed FileSystem）。

HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样，HDFS为你管理这些数据。