
大数据治理
文章平均质量分 92
大数据快速入门攻略
Java架构何哥
从事政务信息化、大数据治理、AI大模型等行业领域。
展开
-
区块链全球性技术
区块链(Blockchain)是一种去中心化的分布式账本技术,它通过将数据记录在多个节点上,并以加密方式确保这些记录的安全性和不可篡改性。区块链最初是作为比特币的底层技术被提出,以其独特的去中心化、安全性和透明性,正在改变我们处理数据和进行交易的方式。尽管仍面临一些技术和法规上的挑战,但它已经展现出巨大的潜力,并将继续推动各行业的创新和发展。原创 2024-12-24 11:43:45 · 2476 阅读 · 0 评论 -
可信数据空间和隐私计算常见术语总结
可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。本文件所称可信数据空间、数据空间、空间的含义相同。数据提供方、数据使用方、数据服务方、可信数据空间运营者等,依据既定规则,围绕数据资源的流通、共享、开发、利用进行互动和协作,共同构建的以价值共创为导向的生态系统。在可信数据空间中使用数据资源的主体,依据与可信数据空间运营者、数据提供方等签订的协议,按约加工使用数据资源、数据产品和服务。原创 2024-12-24 11:09:59 · 1479 阅读 · 0 评论 -
一文读懂数据中台
数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用。下图所示为数据中台总体架构图,数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系。数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成本更低。通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。原创 2024-06-11 17:10:48 · 510 阅读 · 0 评论 -
大数据技术16:数据湖和湖仓一体
近几年大数据概念很多,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又开始流行湖仓一体。互联网公司拼命造高大上概念来忽略小白买单的能力还是可以的。原创 2023-12-27 14:43:01 · 1622 阅读 · 0 评论 -
大数据技术15:大数据常见术语汇总
大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,通过本文整理了大数据开发工程师经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时的人员协作及研发都有很高的作用。原创 2023-12-18 19:52:29 · 2098 阅读 · 0 评论 -
大数据技术14:FlinkCDC数据变更捕获
CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。用于备份,容灾;一个数据源分发给多个下游系统;面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。离线调度查询作业,批处理。把一张表同步到其他系统,每次通过查询去获取表中最新的数据;无法保障数据一致性,查的过程中有可能数据已经发生了多次变更;原创 2023-12-16 02:17:19 · 1102 阅读 · 0 评论 -
大数据技术13:HBase分布式列式数据库
2007年Powerset的工作人员,通过google的论文开发出了BigTable的java版本,即HBASE。2008年HBASE贡献给了Apache。HBase需要依赖JDK环境。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据 储在 HDFS 上,客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。原创 2023-12-14 11:24:10 · 1709 阅读 · 0 评论 -
大数据技术12:Hive简介及核心概念
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了,Hive出现后大大降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。为每个数据库上创建一个目录,数据库中的表是该目录的子目录,表中的数据会以文 件的形式存储在对应的表目录下。始化,但不会生成所有的元数据信息表,只会初始化必要的一部分,在之后的使用中用到其余表时。原创 2023-12-14 11:24:06 · 2862 阅读 · 0 评论 -
大数据技术11:Hadoop 原理与运行机制
众所周知,Hadoop 作为一个开源分布式系统基础框架,主要包含两大核心组件:HDFS 分布式文件系统和 MapReduce 分布式并行计算框架,这两大核心组件是 Hadoop 进行大数据处理的基础和基石,此外,Hadoop 的重要组件还包括:Hadoop Common 和 YARN 框架。目前,Hadoop 主要由 Apache 软件基金会进行开发和维护。原创 2023-12-14 10:17:13 · 2509 阅读 · 0 评论 -
大数据技术10:Flink从入门到精通
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。截止目前2023年12月Flink最新版本为v1.18.0。Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。原创 2023-12-11 12:50:58 · 1006 阅读 · 0 评论 -
大数据技术9:最流行的Flink+StarRocks 实时数据分析
数据据仓库、数据湖、湖仓一体等一系列大数据理念的成熟和落地,已快速推动着各种数据资产的搭建。StarRocks 的愿景是希望帮助客户,能够实现极速统一 OLAP 分析的技术架构,StarRocks极致的性能已经深入人心。全面支持了向量化引擎,CBO 技术,智能物化视图等等一揽子技术。使得 StarRocks 可以完成亚秒级极速 OLAP 分析,保证数据分析应用最后一公里的极速响应。原创 2023-12-11 00:14:18 · 1979 阅读 · 0 评论 -
大数据技术8:StarRocks极速全场景MPP数据仓库
StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。原创 2023-12-10 20:58:24 · 3176 阅读 · 0 评论 -
大数据技术7:基于StarRocks统一OALP实时数仓
前言: StarRocks 的熟悉程度可能不及 ClickHouse或者是远不及 ClickHouse 。但是大家可能听说过 Doris ,而 StarRocks 实际上原名叫做 Doris DB ,他相当于是一个加强版的也就是一个 Doris+ ,也就是说 Doris 所有的功能 StarRocks 都是有的,但是 StarRocks 有的这种加速的功能 Doris 目前是没有的。我们可以基于 Apache Doris 统一 OLAP 技术栈,并满足庞大数据体量下的实时分析与极速查询。原创 2023-12-10 16:27:31 · 1031 阅读 · 0 评论 -
大数据技术6:大数据技术栈
大数据相关的技术名词特别多,这些技术栈之间的关系是什么,对初学者来说很难找到抓手。我一开始从后端转大数据的时候有点懵逼,整体接触了一遍之后才把大数据技术栈给弄明白了。原创 2023-12-09 17:39:58 · 1199 阅读 · 0 评论 -
大数据技术5:OLAP引擎对比分析
数据仓库建设。初级的理解就是建表,将业务数据、日志数据、消息队列数据等,通过各种调度任务写入到表里供OLAP引擎使用。但要想建好数仓也是一个复杂、庞大的工程,比如要考虑:数据清洗、数据建模(星型模型、雪花模型、宽表模型、主题、维度、指标)、数据时效性(实时、T+1)、延迟容错、机器资源等。原创 2023-12-09 13:53:18 · 924 阅读 · 0 评论 -
大数据技术4:Lambda和Kappa架构区别
Lambda架构通过批处理层和速度层的组合,兼顾了低延迟和复杂分析,但系统较复杂,存在数据冗余和延迟不一致问题。Kappa架构只通过流式系统实现所有处理,简化了架构,但历史数据分析相对复杂,需要流式系统保证精确一次语义。两者都有各自的优缺点,需要根据具体场景进行技术选型和设计权衡。原创 2023-12-08 12:30:50 · 4457 阅读 · 0 评论 -
大数据技术3:数据仓库的ETL和分层模型
数据仓库是一个面向主题的集成的相对稳定的反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代,架构上并没有根本的区别,可以把这个架构叫做离线大数据架构后来随着业务实时性要求的不断提高,人们开始在离线大数据架构基础上加了一个加速层,使用流处理技术直接完成那些实时性要求较高的指标计算,这便是 Lambda 架构。原创 2023-12-08 11:56:46 · 2725 阅读 · 0 评论 -
大数据技术2:大数据处理流程
为了能够让熟悉 SQL 的人员也能够进行数据的分析,查询分析框架应运而生,常用的有 Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix 等。分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存 储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但 却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据 库的优点,基于这种需求,就产生了 HBase、MongoDB。原创 2023-12-07 17:41:06 · 1677 阅读 · 0 评论 -
大数据技术1:大数据发展简史
随着信息时代互联网技术爆炸式的发展,人们对于网络的依赖程度日渐加深,在业务中需要处理的数据量快速增加,逐渐飙升到了一个惊人的数量级。并且数据产生的速度随着采集与处理技术的更新仍在加快。数据量从兆字节(MB)、 吉字节 (GB) 的级别到现在的太字节 (TB)、柏字节(PB) 级别,数据量的变化促使数据管理系统(DBMS) 和数据仓库(DataWarehouse,DW)系统也在悄然地变化着。传统应用的数据系统架构设计时,应用直接访问数据库系统。当用户访问量增加时,数据库原创 2023-12-05 18:04:30 · 2748 阅读 · 0 评论