APACHE-ATLAS-2.1.0简介(一)

ATLAS是什么?

ATLAS是HADOOP生态的数据治理和元数据管理的服务框架,是一组可扩展的核心基础治理服务集,使企业能够有效且高效地满足HADOOP生态中的合规性要求,并允许与整个企业数据生态系统集成。Apache ATLAS为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产协助开发的能力。

ATLAS的应用场景是什么?

随着企业的发展,企业产生的业务数据日益增多,不同业务线的数据可能在不同种的数据库中存储,最终会汇集到数据仓库中进行整合分析。如果想要追踪数据来源,理清数据之间的关系将会是一件异常复杂的事情,如果某个环节出了问题,追溯的成本将会成倍增加。于是 ATLAS就在这种背景下产生了,通过它,我们可以非常方便的管理元数据,并且可以追溯表级别,列级别之间的关系(血缘关系),可以非常直观的展示各个实体之间的关系,为企业的数据资产提供强有力的支撑和保障。
主要体现在元数据管理、数据分级分类、数据审计、数据血缘、信息脱敏和图化展示等六大场景,同时支持HADOOP生态的安全策略(RANGER)。

ATLAS整体架构

在这里插入图片描述
①. MetaSource Sources:元数据源,ATLAS支持与许多现成的元数据源进行集成,目前支持从HBase、Hive、Sqoop、Storm和Kafka中提取和管理元数据,通过安装对应的HOOK中间件完成元数据源与ATLAS的对接;
②. Apps:应用层,它主要包括基于RANGER的权限管理策略、WEB客户端以及业务分类这三大核心功能。用户通过Atlas Admin UI可以完成对元数据的查询和血缘展示;
③. Integration:融合层,也可以叫统一接口层,提供了HTTP协议的接口和基于KAFKA的发布订阅模式的消息接口,用于和ATLAS的对接;
④. Core:核心层,主要包括数据导入/导出引擎、类型系统以及图引擎。

  • 【Ingest/Export】,用户可以通过Ingest/Export组件,将元数据添加到ATLAS中,也可以将元数据导出;
  • 【TypeSyetem】,TypeSyetem称为“实体”的“类型”实例,它表示受管理的实际元数据对象,用户可以通过该组件将想要管理的元数据对象定义成模型,简单来说用于将ATLAS所管理的元数据进行分类;
  • 【图引擎】,ATLAS使用图模型持久化所管理的元数据对象,底层采用JanusGraph实现,ATLAS的所有数据最终都会转换成图存储中的顶点vertex、边edge和属性property三种元素,JanusGraph以HBASE作为底层存储;
  • 【Metadata Store<Hbase>】,元数据使用HBASE存储;
  • 【Index Store<Solr>】,全文检索数据库,和ES具有相同的功能,当时ATLAS也支持ES,使用SOLR来创建索引。
JanusGraph整体架构

在这里插入图片描述

ATLAS的原理

ATLAS通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 ATLAS的 元数据引擎中,同时通过 HOOK的方式监听数仓中的数据变化,分析执行的SQL语句,从而生成表与表,列与列的血缘关系依赖,将关系进行存储和展示。ATLAS提供了SHELL脚本可以直接读取HIVE的表结构等元数据信息,并将这些信息同步到 ATLAS的存储引擎中,自动生成元数据模型,同时ATLAS提供了HiveHook,可以监听HIVE的数据变化,根据HIVE执行的HQL,推断出数据与数据之间的关系,生成血缘关系图。

ATLAS的术语

  1. Type,又叫类型系统,它是一个组件,允许用户定义和管理类型和实体。用于表示和定义如何存储并访问特定类型的元数据对象,类型表示了所定义元数据对象的一个或多个特征的集合。类型可以是数据库,表,列等,还可以细分为 mysql 表( mysql_table ),oracle 表( oracle_table ),hive表(hive_table),hbase表(hbase_table)等,ATLAS自带了很多类型,如 DataSet,Process 等,一般情况下,与数据相关的类型在定义类型的时候都会继承 DataSet,与流程相关的类型则会继承 Process,便于生成血缘关系。也可以通过调用API自定义类型,定义完类型之后,才能生成不同类型的元数据实体,生成血缘关系,也可以把元数据类型称之为模型。允许用户为他们想要管理的元数据对象定义一个模型,该模型由称为 “类型” 的定义组成。被称为 “实体” 的 “类型” 实例表示被管理的实际元数据对象。

  2. Classification,分类,通俗点就是给元数据打标签,分类是可以传递的,比如 A 视图是基于 A 表生成的,那么如果 A 表打上了 TA这个标签,A 视图也会自动打上TA标签,这样的好处就是便于数据的追踪,主要是便于更好的组织和管理元数据信息,可以将某个实体挂在某个分类下。

  3. Glossary,术语表,是ATLAS提供的除了分类以外的另外一种分类、组织和管理元数据的方式,由类别(这个和前面的Classification是不一样的)和术语两层结构组成。也可以理解为除了分类以外的从另一个维度进行分类,一般一个术语就是一个单词。比如:将公司的员工按部门进行划分,这可以理解为分类;而公司的员工又可以分为前端工程师、后端工程师、系统架构师等,这些“前端工程师、后端工程师、系统架构师”就叫术语,可以将某个实体挂在某个术语下。术语除了与类别关联,还可以和分类进行关联。也就是说可以在ATLAS的UI上把某个术语挂在某个分类下。

  4. Entity,实体,表示具体的元数据,ATLAS管理的对象就是各种 Type 的 Entity。

  5. Lineage,数据血缘,表示数据之间的传递关系,通过 Lineage 我们可以清晰的知道数据的从哪里来到哪里去,中间经历了哪些操作和步骤,便于数据追溯,和问题定位。

ATLAS的可视化展示

搜索发现:
在这里插入图片描述

数据血缘:在这里插入图片描述
类型定义:
在这里插入图片描述
实体图化:
在这里插入图片描述

apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中的个软件包。Apache Atlas个开源的数据治理和元数据框架,用于收集、集成、索引和搜索数据资产。它提供了个统的视图来管理企业中的所有数据资产,包括表、列、模式、实体和关系等。而apache-atlas-2.1.0-hive-hook.tar.gz是Atlas项目为了与Hive集成而提供的个插件。 Hive是个构建在Hadoop之上的数据仓库基础设施工具,用于处理大规模的结构化数据。它提供了类似于SQL的查询和分析功能,可以将数据批量导入、导出和查询。通过与Apache Atlas的集成,可以实现对Hive中数据资产的元数据管理和治理。 在实际的应用中,apache-atlas-2.1.0-hive-hook.tar.gz可以被部署到Hive的服务器上,并与Hive的插件机制进行集成。通过配置Hive的元数据存储URL、用户名和密码等信息,Atlas可以自动从Hive中提取元数据,并将其索引到Atlas的元数据仓库中。这样,用户可以在Atlas的界面中浏览和搜索Hive中的表、列和关系,并进行数据资产的管理和治理。 此外,apache-atlas-2.1.0-hive-hook.tar.gz还提供了些其他功能,如基于分类标签的权限控制、数据血缘追踪、数据脱敏等。通过这些功能,用户可以更好地理解和管理Hive中的数据资产,提高数据治理的效率和质量。 总之,apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中用于与Hive集成的插件,通过它可以实现对Hive中数据资产的元数据管理和数据治理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cloneme01

谢谢您的支持与鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值