自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Deepseek本地部署

本文主要介绍安装DeepSeek。

2025-02-08 14:33:16 580

原创 大数据运维管理体系的搭建

主动性主动事务:由运维团队预先规划和执行,旨在提升系统性能或预防潜在问题。被动事务:由系统故障或外部因素引发,需立即响应和处理。可预防性可预防事务:通过有效的监控和维护措施,可以预先识别并避免潜在问题。不可预防事务:难以提前预测,需要在问题发生后进行应急处理。紧急性紧急事务:一旦发生,需要立即采取行动以防止系统进一步恶化或业务中断。非紧急事务:问题影响较小,可以在一定时间内计划解决,不会立即影响业务运行。解决周期快速解决事务:问题可以在短时间内通过常规手段解决,恢复系统正常运行。

2025-01-12 11:49:08 727

原创 Apache Hudi vs Delta Lake vs Apache Iceberg

(查询是否可以基于定义在列值上的函数进行数据跳过,除了字面上的列值之外?(我可以配置一个单一的标准文件大小,以在任何写入表时自动强制执行吗?(我可以避免将所有基础文件与所有传入的更新/删除记录进行合并吗?(我可以在不重写数据的情况下将数据就地升级到系统中吗?(我可以保存数据的快照,然后将表恢复到该状态吗?我可以使用命令行界面(CLI)来管理我的表格吗?(我可以同时对表运行不同的写入器和表服务吗?(我可以在使用过程中持续更改表的分区结构吗?(我可以在写入时对数据进行提交前的转换吗?

2025-01-10 23:26:06 2104

原创 CDP集成Hudi实战-Hive

〇]关于本文本文测试一下使用Hive和Hudi的集成。

2025-01-05 09:01:02 617

原创 CDP集成Hudi实战-文件存储布局实况讲解

这是 Hudi 表的根目录,所有表数据、元数据和日志都存储在该目录中。.hoodie是 Hudi 的元数据目录,存储管理 Hudi 表的各种元数据和临时文件。是 Hudi 表的辅助目录,主要用来支持引导(bootstrap)功能,帮助将非 Hudi 数据集转化为 Hudi 表,同时记录文件和分区的信息。它不会存储实际数据,而是为 Hudi 提供管理这些数据所需的元数据。所以,简单来说:.aux用于存储 Hudi 表的模式文件。

2025-01-04 13:21:42 898

原创 CDP集成Hudi实战-spark shell

​​​​​​​Hudi提供了多种写操作——包括批量和增量写操作——以将数据写入Hudi表,这些操作具有不同的语义和性能。当未配置记录键(请参见下面的键)时,将选择bulk_insert作为写操作,这与Spark的Parquet数据源的非默认行为相匹配。首次提交将自动初始化表,如果指定的基本路径中尚不存在该表。

2025-01-04 00:06:03 498 1

翻译 Hudi核心概念-表&查询类型

Hudi表类型定义了数据的存储方式以及写操作在表上的实现方式(即数据如何写入)。相应地,查询类型定义了底层数据如何暴露给查询(即数据如何读取)。表与查询图:表与查询Hudi 引入了以下表类型,这些类型现在已被广泛应用于整个行业,用于权衡不同的性能和需求。写时复制(CoW)表类型针对读密集型工作负载进行了优化。在此模式下,记录的更新或删除操作会触发文件组中新基文件的创建,而不会写入日志文件。这确保了每次查询只需读取基文件,从而提供高读取性能,并且无需动态合并日志文件。

2025-01-03 13:23:43 197

翻译 Hudi核心概念-索引

全局索引提供了更强的保证,但更新/删除的成本可能会随着表的大小增长,复杂度为 O(表的大小)O(表的大小),因为记录可能属于存储中的任意分区。由于Hudi的设计在处理可变的变更流方面经过了大量优化,且具有不同的写入模式,Hudi将索引视为其设计的一个核心部分,并自项目初始就独特地支持索引功能,旨在加速数据湖仓的写入操作,同时仍保持列式查询的性能。尽管如此,非全局索引能够提供更高的性能,因为索引查找操作的复杂度为 O(更新/删除的记录数)O(更新/删除的记录数),并且能够很好地适应较大的写入量。

2025-01-03 12:15:12 127

翻译 Hudi核心概念-文件存储布局

以下内容描述了 Hudi 表在存储中一般的文件组织结构。.hoodie。

2025-01-03 09:15:37 125

翻译 Hudi核心概念-时间线

表状态的变化(写入、表服务、模式更改等)被记录为 Hudi 时间线中的动作。Hudi 时间线是一个记录在不同时间点(瞬间)对表执行的所有操作的日志。它是 Hudi 架构的关键组成部分,作为表状态的真实来源。时间线上使用的所有瞬时时间都遵循 TrueTime 语义,并在涉及的各种进程中全局单调递增。有关更多详细信息,请参阅下面的 TrueTime 部分。

2025-01-03 08:56:27 97

原创 CDP集成Hudi实战-编译部署

Hudi 1.0.0 是一个重要的里程碑版本,重点改进了数据格式、性能和并发写入支持,同时引入了更灵活的索引和文件格式管理,为用户带来了更高的可扩展性和易用性。本文是关于如何在CDP-7.3.1的环境下编译部署Hudi-1.0.0。

2025-01-02 13:10:10 825

原创 CDP集群安全指南-动态数据加密

集群的动态数据加密主要指的是加密通过网络协议传输的数据,防止数据在传输的过程中被窃取。由于大数据设计的主机及服务众多。你需要更具集群的实际环境来评估需要为哪些环节实施动态加密。这里我们介绍一种通过Cloudera Manager 的Auto-TLS功能来为整个Cloudera Manager层面开启动态加密的步骤。开启后将会发生以下变化我这里只为Cloudera Manager开启TLS 加密,并不打算为CDP的服务启用TLS/SSL,因为开启后所有服务的使用方式都会发生改变。这是一个非常大的变更。

2025-01-02 12:35:13 897

翻译 开放表格式与开放数据湖仓的视角分析

如今,围绕的讨论异常火热。这种架构将两种主流的数据存储技术——和相结合,承诺以更少的成本实现更多的功能。同时,由于客户对灵活性和开放性的需求,所有主要的数据仓库厂商都已经开始支持。在这一领域,和这三个项目成为了焦点,也成为厂商在这一技术方向上博弈的关键。这些项目为构建开放且可适应的基础架构铺平了道路,使企业能够根据自身的特定工作负载选择合适的计算引擎,从而避免被专有存储格式所限制。

2025-01-01 12:13:30 101

原创 CDP集群安全指南-静态数据加密

loudera 支持两种加密组件,这些组件可以组合成独特的解决方案。在选择密钥管理系统(KMS)时,您需要决定哪些组件能够满足企业的密钥管理和加密需求。Ranger 扩展了 Hadoop 原生 KMS 的功能,允许将密钥存储在安全的数据库中。它是一个支持 HDFS TDE(透明数据加密)的密码密钥管理服务,但并非通用密钥管理系统。与 Hadoop KMS 不同,Hadoop KMS 将密钥存储在基于文件的 Java Keystore 中,仅能通过 KeyProvider API 访问。

2024-12-31 15:46:51 1019

翻译 深入解析 Cloudera 混合数据湖库的下一阶段

人工智能(AI)正蓄势待发,重塑几乎每个行业的运营方式。根据Cloudera的研究,超过三分之一(36%)的美国企业处于探索人工智能应用潜力的初期阶段。然而,即便AI的应用正在崛起,许多企业仍面临着挑战。无论是AI还是其他形式的分析,其质量都依赖于其所基于的数据。而问题的关键就在于此。许多组织难以访问和收集分散且孤立的数据,这些数据分布在不同的环境中,而这些数据又是驱动AI所必需的。这使得许多企业无法实现他们对业务洞察和价值的期望。

2024-12-31 13:46:23 70

原创 ​​​​​​​CDP集群安全指南系列文章导读

身份验证是任何计算环境的基本安全要求。由于 Hadoop 将多个不同且先前独立的 IT 系统的功能整合为一个企业数据中心,用于存储和处理组织内的所有数据,因此需要多种授权控制,具有不同的细粒度。由于 SSL 的术语仍被广泛使用,Cloudera 的软件和文档中将 TLS 称为 TLS/SSL,但实际上使用的协议是 TLS。如何你长期管理过CDP集群,你就会发现,一旦集群开启了Kerberos认证,如果有新的用户或者业务要访问集群,新用户或业务所在的服务器也必须被纳入集群的Kerberos认证体系内。

2024-12-31 13:19:51 1914

原创 CDP集群安全指南-开启Ldap认证篇

如果你现在看完了之前的文章,你会发现,你现在有很多用户密码。登录Cloudera Manager的用户密码Kerberos的用户密码Hue的用户密码。这些都是独立的认证系统。可以想象作为运维单是管理这些账号就要花费大量精力。不!!!我每天这么忙还要管理这么多账号密码!!!接下来我们要做的事情就是把这些系统的认证都接入Active Directory的Ldap协议里,这样我们只要管理AD中的用户就可以了。

2024-12-29 15:15:01 825

原创 CDP集群安全指南-开启Knox网关篇

Apache Knox Gateway(简称“Knox”)是一个系统,旨在不降低Hadoop安全性的前提下,将Apache™ Hadoop®服务的范围扩展到Hadoop集群外部的用户。Knox还为访问集群数据和执行作业的用户简化了Hadoop安全性。Knox Gateway被设计为反向代理。在Hadoop中,通过强身份验证建立用户身份是实现安全访问的基础。用户需要可靠地进行身份验证,然后该身份将在整个Hadoop集群中传播,以便访问集群资源。

2024-12-29 11:04:38 309

原创 CDP集群安全指南-开启Ranger授权和审计篇

审核更改 命令详细信息 汇总[二]开启服务的Ranger授权1-开启hdfs的ranger授权2-开启Yarn的Ranger授权3-开启hive的Ranger授权4-开启hive on tez的ranger授权5-开启Impala的Ranger授权6-开启Hbase的Ranger授权

2024-12-28 23:47:55 774

原创 Cloudera集群运维-关于kerberos加密算法的配置梳理

TKT,即票据授予票据,可以形象地比喻为一把“万能钥匙”。在Kerberos认证系统中,当你(作为客户端)想要访问某个服务(如服务器上的某个文件或数据库)时,你首先需要向Kerberos认证中心(Key Distribution Center, KDC)证明你的身份。这个属性对于Kerberos认证过程尤为重要,因为它决定了在AD环境中,哪些加密类型可以被用于票据(ticket)的加密和会话密钥的生成。当你(持有TKT的客户端)来到这个中心,并请求访问某个特定服务的权限时,TGS会检查你的TKT是否有效。

2024-12-28 14:53:40 1177

原创 CDP集群安全指南-开启Kerberos认证篇(Active Directory)

否则AD DC将无法完成初始化,等初始话AD DC完成后再安装类似次步骤添加AD证书服务。现在我们给先建的Cloudera OU指派完全管理员scm用户。以下操作在linux所有主机上执行。

2024-12-26 12:22:06 2142

原创 Cloudera集群运维手册-Kerberos&Ldap相关报错-持续更新

密码复杂度不够,修改unicodePwd::使其更为复杂。

2024-12-25 18:35:28 321

原创 Cloudera集群运维-如何优化Hbase Regionserver GC

【警告】为 HBase 配置 JVM 垃圾回收是一项高级操作。配置不当可能对集群的性能产生重大影响。请仔细测试任何配置更改。【警告】使用 OpenJDK 11 时,Cloudera Manager 和大多数 Cloudera Runtime 服务使用 G1GC 作为默认的垃圾回收方法。(Java 8 使用“ConcurrentMarkSweep”(CMS)进行垃圾回收。)使用 G1GC 时,垃圾回收的暂停时间更短,因此组件通常会更加响应,但它们对内存过度分配更加敏感。

2024-12-23 22:36:41 727

原创 Cloudera集群运维-如何在hive中利用UDF刷新impala元数据

调用。

2024-12-23 12:59:33 337

原创 Cloudera集群运维手册-集群安装篇

本文详细演示了CDP7.3的安装过程

2024-12-21 13:17:40 1444

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除