- 博客(25)
- 收藏
- 关注
原创 大数据运维管理体系的搭建
主动性主动事务:由运维团队预先规划和执行,旨在提升系统性能或预防潜在问题。被动事务:由系统故障或外部因素引发,需立即响应和处理。可预防性可预防事务:通过有效的监控和维护措施,可以预先识别并避免潜在问题。不可预防事务:难以提前预测,需要在问题发生后进行应急处理。紧急性紧急事务:一旦发生,需要立即采取行动以防止系统进一步恶化或业务中断。非紧急事务:问题影响较小,可以在一定时间内计划解决,不会立即影响业务运行。解决周期快速解决事务:问题可以在短时间内通过常规手段解决,恢复系统正常运行。
2025-01-12 11:49:08
727
原创 Apache Hudi vs Delta Lake vs Apache Iceberg
(查询是否可以基于定义在列值上的函数进行数据跳过,除了字面上的列值之外?(我可以配置一个单一的标准文件大小,以在任何写入表时自动强制执行吗?(我可以避免将所有基础文件与所有传入的更新/删除记录进行合并吗?(我可以在不重写数据的情况下将数据就地升级到系统中吗?(我可以保存数据的快照,然后将表恢复到该状态吗?我可以使用命令行界面(CLI)来管理我的表格吗?(我可以同时对表运行不同的写入器和表服务吗?(我可以在使用过程中持续更改表的分区结构吗?(我可以在写入时对数据进行提交前的转换吗?
2025-01-10 23:26:06
2104
原创 CDP集成Hudi实战-文件存储布局实况讲解
这是 Hudi 表的根目录,所有表数据、元数据和日志都存储在该目录中。.hoodie是 Hudi 的元数据目录,存储管理 Hudi 表的各种元数据和临时文件。是 Hudi 表的辅助目录,主要用来支持引导(bootstrap)功能,帮助将非 Hudi 数据集转化为 Hudi 表,同时记录文件和分区的信息。它不会存储实际数据,而是为 Hudi 提供管理这些数据所需的元数据。所以,简单来说:.aux用于存储 Hudi 表的模式文件。
2025-01-04 13:21:42
898
原创 CDP集成Hudi实战-spark shell
Hudi提供了多种写操作——包括批量和增量写操作——以将数据写入Hudi表,这些操作具有不同的语义和性能。当未配置记录键(请参见下面的键)时,将选择bulk_insert作为写操作,这与Spark的Parquet数据源的非默认行为相匹配。首次提交将自动初始化表,如果指定的基本路径中尚不存在该表。
2025-01-04 00:06:03
498
1
翻译 Hudi核心概念-表&查询类型
Hudi表类型定义了数据的存储方式以及写操作在表上的实现方式(即数据如何写入)。相应地,查询类型定义了底层数据如何暴露给查询(即数据如何读取)。表与查询图:表与查询Hudi 引入了以下表类型,这些类型现在已被广泛应用于整个行业,用于权衡不同的性能和需求。写时复制(CoW)表类型针对读密集型工作负载进行了优化。在此模式下,记录的更新或删除操作会触发文件组中新基文件的创建,而不会写入日志文件。这确保了每次查询只需读取基文件,从而提供高读取性能,并且无需动态合并日志文件。
2025-01-03 13:23:43
197
翻译 Hudi核心概念-索引
全局索引提供了更强的保证,但更新/删除的成本可能会随着表的大小增长,复杂度为 O(表的大小)O(表的大小),因为记录可能属于存储中的任意分区。由于Hudi的设计在处理可变的变更流方面经过了大量优化,且具有不同的写入模式,Hudi将索引视为其设计的一个核心部分,并自项目初始就独特地支持索引功能,旨在加速数据湖仓的写入操作,同时仍保持列式查询的性能。尽管如此,非全局索引能够提供更高的性能,因为索引查找操作的复杂度为 O(更新/删除的记录数)O(更新/删除的记录数),并且能够很好地适应较大的写入量。
2025-01-03 12:15:12
127
翻译 Hudi核心概念-时间线
表状态的变化(写入、表服务、模式更改等)被记录为 Hudi 时间线中的动作。Hudi 时间线是一个记录在不同时间点(瞬间)对表执行的所有操作的日志。它是 Hudi 架构的关键组成部分,作为表状态的真实来源。时间线上使用的所有瞬时时间都遵循 TrueTime 语义,并在涉及的各种进程中全局单调递增。有关更多详细信息,请参阅下面的 TrueTime 部分。
2025-01-03 08:56:27
97
原创 CDP集成Hudi实战-编译部署
Hudi 1.0.0 是一个重要的里程碑版本,重点改进了数据格式、性能和并发写入支持,同时引入了更灵活的索引和文件格式管理,为用户带来了更高的可扩展性和易用性。本文是关于如何在CDP-7.3.1的环境下编译部署Hudi-1.0.0。
2025-01-02 13:10:10
825
原创 CDP集群安全指南-动态数据加密
集群的动态数据加密主要指的是加密通过网络协议传输的数据,防止数据在传输的过程中被窃取。由于大数据设计的主机及服务众多。你需要更具集群的实际环境来评估需要为哪些环节实施动态加密。这里我们介绍一种通过Cloudera Manager 的Auto-TLS功能来为整个Cloudera Manager层面开启动态加密的步骤。开启后将会发生以下变化我这里只为Cloudera Manager开启TLS 加密,并不打算为CDP的服务启用TLS/SSL,因为开启后所有服务的使用方式都会发生改变。这是一个非常大的变更。
2025-01-02 12:35:13
897
翻译 开放表格式与开放数据湖仓的视角分析
如今,围绕的讨论异常火热。这种架构将两种主流的数据存储技术——和相结合,承诺以更少的成本实现更多的功能。同时,由于客户对灵活性和开放性的需求,所有主要的数据仓库厂商都已经开始支持。在这一领域,和这三个项目成为了焦点,也成为厂商在这一技术方向上博弈的关键。这些项目为构建开放且可适应的基础架构铺平了道路,使企业能够根据自身的特定工作负载选择合适的计算引擎,从而避免被专有存储格式所限制。
2025-01-01 12:13:30
101
原创 CDP集群安全指南-静态数据加密
loudera 支持两种加密组件,这些组件可以组合成独特的解决方案。在选择密钥管理系统(KMS)时,您需要决定哪些组件能够满足企业的密钥管理和加密需求。Ranger 扩展了 Hadoop 原生 KMS 的功能,允许将密钥存储在安全的数据库中。它是一个支持 HDFS TDE(透明数据加密)的密码密钥管理服务,但并非通用密钥管理系统。与 Hadoop KMS 不同,Hadoop KMS 将密钥存储在基于文件的 Java Keystore 中,仅能通过 KeyProvider API 访问。
2024-12-31 15:46:51
1019
翻译 深入解析 Cloudera 混合数据湖库的下一阶段
人工智能(AI)正蓄势待发,重塑几乎每个行业的运营方式。根据Cloudera的研究,超过三分之一(36%)的美国企业处于探索人工智能应用潜力的初期阶段。然而,即便AI的应用正在崛起,许多企业仍面临着挑战。无论是AI还是其他形式的分析,其质量都依赖于其所基于的数据。而问题的关键就在于此。许多组织难以访问和收集分散且孤立的数据,这些数据分布在不同的环境中,而这些数据又是驱动AI所必需的。这使得许多企业无法实现他们对业务洞察和价值的期望。
2024-12-31 13:46:23
70
原创 CDP集群安全指南系列文章导读
身份验证是任何计算环境的基本安全要求。由于 Hadoop 将多个不同且先前独立的 IT 系统的功能整合为一个企业数据中心,用于存储和处理组织内的所有数据,因此需要多种授权控制,具有不同的细粒度。由于 SSL 的术语仍被广泛使用,Cloudera 的软件和文档中将 TLS 称为 TLS/SSL,但实际上使用的协议是 TLS。如何你长期管理过CDP集群,你就会发现,一旦集群开启了Kerberos认证,如果有新的用户或者业务要访问集群,新用户或业务所在的服务器也必须被纳入集群的Kerberos认证体系内。
2024-12-31 13:19:51
1914
原创 CDP集群安全指南-开启Ldap认证篇
如果你现在看完了之前的文章,你会发现,你现在有很多用户密码。登录Cloudera Manager的用户密码Kerberos的用户密码Hue的用户密码。这些都是独立的认证系统。可以想象作为运维单是管理这些账号就要花费大量精力。不!!!我每天这么忙还要管理这么多账号密码!!!接下来我们要做的事情就是把这些系统的认证都接入Active Directory的Ldap协议里,这样我们只要管理AD中的用户就可以了。
2024-12-29 15:15:01
825
原创 CDP集群安全指南-开启Knox网关篇
Apache Knox Gateway(简称“Knox”)是一个系统,旨在不降低Hadoop安全性的前提下,将Apache™ Hadoop®服务的范围扩展到Hadoop集群外部的用户。Knox还为访问集群数据和执行作业的用户简化了Hadoop安全性。Knox Gateway被设计为反向代理。在Hadoop中,通过强身份验证建立用户身份是实现安全访问的基础。用户需要可靠地进行身份验证,然后该身份将在整个Hadoop集群中传播,以便访问集群资源。
2024-12-29 11:04:38
309
原创 CDP集群安全指南-开启Ranger授权和审计篇
审核更改 命令详细信息 汇总[二]开启服务的Ranger授权1-开启hdfs的ranger授权2-开启Yarn的Ranger授权3-开启hive的Ranger授权4-开启hive on tez的ranger授权5-开启Impala的Ranger授权6-开启Hbase的Ranger授权
2024-12-28 23:47:55
774
原创 Cloudera集群运维-关于kerberos加密算法的配置梳理
TKT,即票据授予票据,可以形象地比喻为一把“万能钥匙”。在Kerberos认证系统中,当你(作为客户端)想要访问某个服务(如服务器上的某个文件或数据库)时,你首先需要向Kerberos认证中心(Key Distribution Center, KDC)证明你的身份。这个属性对于Kerberos认证过程尤为重要,因为它决定了在AD环境中,哪些加密类型可以被用于票据(ticket)的加密和会话密钥的生成。当你(持有TKT的客户端)来到这个中心,并请求访问某个特定服务的权限时,TGS会检查你的TKT是否有效。
2024-12-28 14:53:40
1177
原创 CDP集群安全指南-开启Kerberos认证篇(Active Directory)
否则AD DC将无法完成初始化,等初始话AD DC完成后再安装类似次步骤添加AD证书服务。现在我们给先建的Cloudera OU指派完全管理员scm用户。以下操作在linux所有主机上执行。
2024-12-26 12:22:06
2142
原创 Cloudera集群运维-如何优化Hbase Regionserver GC
【警告】为 HBase 配置 JVM 垃圾回收是一项高级操作。配置不当可能对集群的性能产生重大影响。请仔细测试任何配置更改。【警告】使用 OpenJDK 11 时,Cloudera Manager 和大多数 Cloudera Runtime 服务使用 G1GC 作为默认的垃圾回收方法。(Java 8 使用“ConcurrentMarkSweep”(CMS)进行垃圾回收。)使用 G1GC 时,垃圾回收的暂停时间更短,因此组件通常会更加响应,但它们对内存过度分配更加敏感。
2024-12-23 22:36:41
727
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人