doris的湖仓一体

2025博客之星年度评选已开启 10w+人浏览 3.3k人参与

Doris的湖仓一体架构通过以下核心设计实现数据湖与数据仓库能力的融合:

湖仓一体是将数据湖和数据仓库的优势相结合的现代化大数据解决方案。其融合了数据湖的低成本、高扩展性与数据仓库的高性能、强数据治理能力,从而实现对大数据时代各类数据的高效、安全、质量可控的存储和处理分析。同时通过标准化的数据格式和元数据管理,统一了实时、历史数据,批处理和流处理,正在逐步成为企业大数据解决方案新的标准。

一、统一存储层

  1. 开放存储格式
    支持对接HDFS、S3等分布式存储系统,直接读取Parquet/ORC等开放格式数据
    $$ \text{存储成本} \propto \frac{1}{\text{数据冗余度}} $$

  2. 元数据统一管理
    通过Catalog机制集成Hive/Iceberg/Hudi元数据,实现全局数据视图

二、统一计算层

  1. 实时分析引擎
    基于MPP架构的向量化执行引擎,支持高并发点查:

    SELECT * FROM user_behavior WHERE user_id = 10086
    

  2. 批量ETL能力
    内置Spark/Flink计算引擎,支持SQL形式的批处理:

    INSERT INTO user_profile 
    SELECT user_id, COUNT(*) FROM logs GROUP BY user_id
    

三、湖仓协同机制

  1. 外部表直查
    通过外部表功能直接查询数据湖数据(无需导入):

    CREATE EXTERNAL TABLE lake_data (
      id BIGINT,
      data VARCHAR(255)
    ) ENGINE=ICEBERG;
    

  2. 智能加速层
    自动将热点数据缓存到Doris本地存储(SSD/内存): $$ \text{查询延迟} = \begin{cases} \mathcal{O}(1) & \text{热数据} \ \mathcal{O}(\log n) & \text{冷数据} \end{cases} $$

四、典型工作流

graph LR
    A[数据湖] -->|外部表| B(Doris计算引擎)
    B --> C{智能路由}
    C -->|热数据| D[本地SSD]
    C -->|冷数据| E[对象存储]
    D --> F[亚秒级响应]
    E --> G[秒级响应]

该架构消除了传统方案中数据迁移的冗余存储,同时满足以下需求:

  • 实时分析:TP99延迟 < 500ms
  • 即席查询:支持ANSI SQL语法
  • 数据新鲜度:分钟级延迟(通过Flink CDC)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值