
Databrikcs
文章平均质量分 88
發糞塗牆
MVP, TOGAF, MCSE, Azure Solution Architect,CDGA
展开
-
【Azure 架构师学习笔记】- Azure Databricks (22) --Autoloader
Databricks家里在Apache Spark之上,是企业级的应对大规模数据处理的通用平台, 可以运行在AWS, Azure和GCP 之上。作为数据处理平台, ETL 必不可少,虽然在特定平台比如Azure上可以通过如ADF来实现数据抽取,但是这样对于云平台间迁移并没有什么帮助。Databricks自带了一个Autoloader功能,本文将介绍一下这个工具。原创 2025-03-17 15:49:32 · 672 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (21) --费用相关
Databricks是很强大的工具和集成平台,但是随着越来越多地使用它,就没办法必须去面对一个现实——费用很高。特别是集群的使用时长越来越久。本文从Azure的Databricks为例介绍一下ADB 相关的费用内容。Azure Cost Management可以看到大部分azure 资源的费用,包括ADB, 不过里面会有一些细微差异。使得最终ADB 的费用并不准确。为了了解费用组成,首先要理解ADB 资源的结构。原创 2025-03-14 11:38:39 · 491 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (20) --Delta Live Table 建议
本文属于。本文属于【Azure Databricks】系列。接上文DLT 通过自动化data pipeline编排,简化ETL 过程,强化了质量检查和优化性能。在以前,数据工程师只能通过手工调度notebook和校验,处理业务逻辑异常。DLT通过声明式ETL 框架抽象掉很多操作开销。声明式开发意味着可以以描述形式来处理需求。不需要再显式管理任务调度和集群资源。原创 2025-03-12 15:27:24 · 903 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (19) --Lakehouse
在现代数据应用环境下,数据仓库(保存结构化数据)和数据湖(保存非结构化数据)被广泛地使用着,这个时候可以尝试Databricks提供的新特性——Lakehouse。它并不是一个可以从Databricks管理界面直接找到的选项。在最早期,数据存储以磁盘文件为主,然后出现数据库,然后出现数据仓库,接下来就出现了data lake。缺乏集中式数据治理,难以维护数据的一致性和安全性。如果没有足够的控制措施,它们可能会变得杂乱无章,从而导致数据完整性问题。包含多种数据类型,因此会导致数据湖或数据沼泽分散和隔离。原创 2025-03-11 15:48:39 · 670 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (18) --Delta Live Table 架构
本文属于。本文属于【Azure Databricks】系列。接上文Databrics DLT 是一个ETL 框架,通过创建pipeline来简化开发难度,本文介绍两种DLT 与ADB搭配的架构。假设一个企业有一个销售系统,并且有两个独立的销售平台A, B,意味着客户信息可能是不一样的。销售系统需要把A, B 的客户信息合并并为后期数据分析做准备。原创 2025-03-10 15:47:52 · 506 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (17) --Delta Live Table和Delta Table
前面介绍了Delta Table,但是Databricks又推出了“Delta Live Tables(DLTs)”这两者名字太像了以至于很容易混淆。Delta Table是一个存储数据到表里面的方式。而DLTs可以用于通过声明式定义来描述在这些表之间的数据流。也就是说DLTs是一个通过创建和保持数据更新用于管理很多delta table的声明式框架。Delta Table:数据格式。Delta Live Tables:数据管道框架(data pipeline framework)原创 2025-03-08 10:12:39 · 858 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (16) -- Delta Lake 和 ADLS整合
上文提到了Delta Lake, 但是这是一个概念,如果落实到具体的资源服务上,又会有一定的修改和限制。本文介绍一下Delta Lake如何跟Azure Data Lake Store 整合。Delta Lake是一个开源框架,可以构建在ADLS之上。ADLS 并不内置事务保障或者Delta Lake提供的性能优化。所以单纯ADLS 很难满足现今的数据需求。原创 2025-03-05 17:24:14 · 793 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (15) --Delta Lake 和Data Lake
ADB 除了UC 这个概念之外,前面【Azure 架构师学习笔记】- Azure Databricks (12) – Medallion Architecture简介中也提到了lakehouse, 那么现在再深入一下了解ADB 的lakehouse。同时看看Data Lake和Delta Lake之间的区别与联系。Data Lake是一个中央存储库,存储和处理原始数据。DeltaLake则是一个开源的,针对数据存储的“表结构对比起Data Lake, 它通过支持ACID架构演变数据版本控制。原创 2025-03-04 15:43:38 · 974 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (14) -- 搭建Medallion Architecture part 2
上文搭建了ADB 与外部的交互部分,本篇搭建ADB 内部配置来满足medallion 架构。原创 2025-03-03 16:50:20 · 865 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (13) -- 搭建Medallion Architecture part 1
上文已经介绍了关于Medallion的知识,本文开始用ADB 来实现, 但是基于内容较多,所以分为两篇。前面【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建中已经创建了一个空白的ADB 并启用了UC。从下图可以大概看出ADB 在Azure上的架构,这里有个大概了解即可:接下来稍微介绍一下ADB 集群的一些重要选项,并创建一个集群。Access Mode:有下面3中模式,但是从解释可以看出只有前两种支持UC ,这里选择默认的single即可。原创 2025-02-28 10:59:44 · 819 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (12) -- Medallion Architecture简介
使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过把数据分为“金”,“银”,“铜” 三层来实现Medallion架构。同时搭配UC,使得medallion更加健壮,安全和合规。除了Medallion, 还有一些概念如data warehouse, data lake, 和data lakehouse。Data lake: 是一个中央存储库,以原始格式存储任意规模的结构化和非结构化数据。与传统存储相比,这样可以减少很多前期转换开销。原创 2025-02-25 11:48:19 · 848 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (11) -- UC搭建
由于ADB 的更新速度很快,在几个月之后重新搭建ADB 时发现UC 已经更新了很多,为了后续做ADB 的功能测试时能有一个更准确的环境,这里从新搭建一次基于目前最新版本的UC。当有了一个ADB 之后,使用下面的步骤即可得到一个UC 环境。这里的SA是Databricks内部使用的,存储UC metadata和meanaged Tables。如果是Azure的storage account,注意一定要为ADLS Gen2,即启用了“Hierarchical namespace”。下图是为了这次所创建的ADLS原创 2025-02-14 17:34:21 · 873 阅读 · 0 评论