外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
AWS 最近宣布推出 Amazon S3 表,该功能旨在解决在云中存储和查询表格数据的独特挑战。虽然这听起来可能具有革命性,但仔细观察会发现,AWS 试图克服的限制是他们自己的基础设施所固有的,而不是对象存储所固有的。让我们分解一下,解释为什么 AIStor 用户不需要担心他们的数据湖仓一体的“特殊存储桶”。
什么是 S3 表?
S3 表引入了一种新型的 S3 存储桶,即表存储桶,专门针对基于 Apache Iceberg 的分析工作负载进行了优化。主要功能包括:
-
更高的事务限制:与标准 S3 存储桶(3500 PUT/s 和 5500 GET/s)相比,表存储桶将请求限制提高到 35000 PUT/s 和 55000 GET/s。
-
内置表维护: 压缩、快照过期和未引用的文件删除是自动的。
-
AWS Glue 和 Lake Formation 集成:与 AWS Glue 紧密耦合以进行编目,并将您的 Glue 目录注册为 Lake Formation 数据位置。
但是,这些优化会带来明显的权衡:增加费用、潜在的 Glue 依赖项以及非 AWS 环境的灵活性有限。例如,如果您已经在使用 Lambdas、Spark、Athena 或其他软件服务等工具进行压缩,则可能需要为不需要的计算支付额外费用。
AWS 为什么要构建 S3 表?
S3 表的主要驱动因素是解决分析工作负载中的性能瓶颈。标准 S3 存储桶在与 Apache Iceberg 一起用于数据湖仓一体时,会很快达到其事务限制,从而导致热点和性能下降。通过引入表存储桶,AWS 现在可以为这些特殊工作负载提供更高的请求速率。但问题是:这些瓶颈是 AWS 架构所独有的。它们的出现是因为 S3 的构建方式以及 AWS 最初施加的请求限制,而不是因为 Iceberg 或一般的对象存储。对于 MinIO 用户来说,这些问题根本不存在。
全力以赴 Iceberg
毋庸置疑,AWS 是 S3 生态系统的重要组成部分。AWS S3 表仅优化 Iceberg 表,让 Hudi 和 Delta Lake 的用户创建和管理自己的存储桶。AWS 选择投资和推广 Iceberg 而不是其他开放桌格式,这将产生非常大的影响。这一行动进一步延续了 Databricks 收购 Tabular 和 Snowflake 开源 Polaris 所开创的进程。更重要的是,所有这些投资、融合和贡献都支持了基于对象存储构建的开放表格式数据湖仓一体的日益霸主地位。将对象存储作为主存储的时代已经到来。
为什么 AIStor 不需要“特殊存储桶”
AIStor 订阅者始终能够将 Iceberg 表存储在任何存储桶中,而无需担心请求限制。当然,由于 AIStor 是您的存储层,因此您始终需要 Spark、Dremio 或 Starburst 等计算层来创建、管理和检索您的开放表格式数据。AIStor 在此次合作中具有独特的能力,原因如下:
-
设计性能:AIStor 是市场上最快的对象存储。MinIO 对吞吐量的唯一限制始终取决于网络和底层硬件。MinIO 将完全填满电线,并与您的磁盘旋转一样快。我们从未限制 GET/s 和 PUT/s 的费率,然后向您收取性能特权。
-
无供应商锁定:AIStore 与 S3 API 兼容,这意味着您可以完全集成到现代数据堆栈的每一层。借助 AIStor 的灵活部署,您可以带着数据去任何公共云(AWS、GCP、Azure)、私有云、colos、数据中心或边缘的任何地方。您可以使用任何计算引擎来查询您的开放表格式数据,并且可以在工作负载需要的任何位置自由探索和构建堆栈,而无需受制于任何特定的云、供应商或流程。
-
简化的维护:只需为所需内容付费。Iceberg 的表维护功能(数据缩减、快照过期等)可以独立于存储层进行计划和执行。MinIO 的高性能可确保这些操作高效运行。
让我们谈谈性能
AWS 将 S3 表推向市场,为 Iceberg 表提供高达 10 倍的事务率。但使用 AIStor,您不受预定义限制的限制。相反,您可以根据工作负载需求调整集群大小,从而在不增加成本或复杂性的情况下获得所需的性能。此外,AIStor 的对象存储旨在为分析和事务工作负载提供一致的高性能。这意味着,与 AWS 的表存储桶不同,您不必被迫隔离存储类型以实现可接受的性能,也不局限于单一的开放表格式。
真正的成本
S3 表带来了复杂性和额外费用:
-
更高的成本:AWS 的 S3 表高级版可能会迅速增加,尤其是对于大规模工作负载。一点简短的数学计算表明,AWS Tables 的成本比普通的 S3 存储桶高 15%。
-
隐藏的迁移成本:如果您选择使用 AWS Tables,则必须将任何现有的 Iceberg 迁移到这些新存储桶中。数据迁移从来都不是一件容易的事,而且很少便宜。
相比之下,MinIO 提供了一种更简单、更具成本效益的解决方案。没有 “table bucket” 税,您可以使用 Iceberg 等开放表格格式,而不受人为限制。
数据湖仓一体存储的未来
Amazon S3 表解决了 AWS 自身基础设施中的限制,但增加了复杂性、成本和用户锁定。另一方面,AIstor 使用户能够对 Iceberg 表运行高性能查询,而无需特殊的存储桶或云依赖项。收获?如果您已经在使用 AIStor,那么您就处于领先地位。如果您正在考虑使用 S3 表,请仔细查看它们是否正在解决实际问题,或者只是由 AWS 创建的问题。