杨志丰:为开发者打造灵活高效的一体化数据库|OceanBase开发者大会实录

5 月 17 日,“2005 OceanBase 开发者大会”在广州成功举办。主论坛期间,OceanBase产品部总经理杨志丰以《为开发者打造灵活高效的一体化产品》为题发表了演讲。

杨志丰详细阐述了OceanBase在 TP、AP ,及云上的核心特性。他指出,OceanBase 始终坚持以一体化产品理念,将技术创新转化为实际用户价值。通过架构升级,OceanBase 已实现:从单机到分布式架构的灵活切换、TP与AP工作负载的融合,以及多模数据处理能力与向量计算、AI技术的协同,持续为用户创造价值。

以下是开发者大会中的演讲全文:

大家好,今天我分享的题目是《为开发者打造灵活高效的一体化产品》。我将围绕一体化架构,带大家回顾 OceanBase 的进化历程,并解读最新发布的 TP、AP 及云上的关键特性。

图片

OceanBase 一体化产品演进历程

OceanBase 一体化的产品理念用一句简单的逻辑概括,就是 OceanBase 通过一体化架构的不断升级,拔高技术的上限。通过一体化的产品理念,把 OceanBase 的技术能力转换成对于用户的产品价值。

一个产品或一个二进制的程序并不能解决用户的所有需求。当 OceanBase 从金融核心系统走向非金融场景,从商业客户延伸到开源社区,客户的业务场景和需求在不断变化,所以我们通过一体化架构,以不变的架构支撑不断变化的产品形态,应对商业客户和开源用户的多元场景需求。

(一)OceanBase 架构发展历程

在 OceanBase 早期的 0.1 版本中,受制于当时的技术条件,OceanBase  采用“一写多读”的存算分离架构。OceanBase  1.0 版本推出完全对等的 MPP 架构,基于此架构,OceanBase 支撑了蚂蚁集团内部完成全面 Oracle 升级,将整个蚂蚁技术栈嵌入到 OceanBase 之上。随后的 2.x 至 3.x 版本中,OceanBase 支持 Oracle 兼容,承接外部商业客户数据库的无缝迁移。在 4.0 版本中,OceanBase 开始向“小型化”演进,架构全新升级,并推出可大可小、能弹性扩展的 OceanBase 单机版。今天,OceanBase 发展到 4.4 版本,这也是我今天会详细介绍的架构。

图片

(二)OceanBase 单机企业版:数据库共享存储部署架构

4.0 版本实现了单机分布式一体化的架构,并正式推出 OceanBase 单机企业版,这一版本不局限于社区版的单机部署平台,而是配备了完整技术服务的企业级产品,OceanBase 一体化架构的核心优势:不仅支持从单机到分布式架构的灵活切换,以及主备高可用与多副本高可用模式的动态调整,还能借助 OceanBase 的多模能力,在单机版上调用所有向量能力,助力用户构建专属 AI 应用。

OceanBase 单机版主要面向 4 大场景:

第一,适用于已采用 OceanBase 分布式版本的用户,满足其在非核心业务场景下以轻量化方式使用产品的需求,尤其适合分支机构部署并与大集中数据中心实现数据同步,统一技术栈,同时,原有 DBA 和应用开发者对 OceanBase 的技术经验可无缝迁移至单机版。

其二,OceanBase 单机版高度兼容 Oracle,可有效承接 OA 系统等场景的 Oracle 升级需求;

其三,为中小企业提供灵活选型路径,允许其在初期选择单机版,后续根据业务发展,通过技术路径平滑升级至分布式版本。

图片

(三)OceanBase 4.4 版本架构解读

在架构层面,OceanBase 4.4 引入的共享存储与业内传统方案存在一定差异,OceanBase 共享存储采用了三层架构设计:

第一层,通过 S3 接口访问云存储及企业内部部署的对象存储,全量数据均存储于对象存储,基于 OceanBase 构成底层基座;

第二层,独立分离日志。针对对象存储的时延问题,OceanBase 采用三副本部署模式优化事务提交,且该日志服务可支持多个集群;

第三层,OceanBase 集群。在共享存储架构中,若需满足高可用场景下的故障时延要求,可部署两副本;对于高可用要求较低的场景,单副本部署即可满足需求。

图片

整体来看,OceanBase 的存储成本以共享存储成本为基线,相较于传统架构可显著降低成本。基于该架构的 Shared Storage 设计,数据在扩缩容过程中无需进行数据搬迁,计算节点的扩缩容相比以往更具弹性与敏捷性。

(四)共享存储云上发力,落地 TP、AP 和 KV场景

基于 OceanBase 4.4 版本的共享存储架构,我们在云上推出 TP、AP 和 KV 三个全新的系列。TP 系列采用两副本设计,作为主流方案现阶段推荐用于非核心业务场景;AP 系列数据存储于 S3 对象存储,通过 OBServer 本地缓存读取,提供用户可控的分区级冷热数据自动分离功能;KV 系列面向时序数据与海量日志存储场景,基于共享存储架构承载低价值密度的海量日志类与时序类数据存储。

图片

(五)单副本产品系列:提供保证数据可靠前提下的极致性价比

基于共享存储架构,OceanBase 延伸出单副本子系列。传统的 Shared Nothing 存算一体设计需双倍计算数据成本以保障高可用和可靠性,而 OceanBase 共享存储架构通过三副本日志服务、单副本对象存储及单副本计算节点的组合,在 AP、KV 等非高可用敏感场景下,仅需单份计算资源即可满足需求。

该设计与云上类似 RDS 产品的显著差异在于:即使是在单副本场景下,OceanBase 仍能通过架构设计确保数据高可用性—— 当单个数据中心故障时可实现 RPO=0,这也是 OceanBase 作为企业级数据库必须坚守的数据稳定可靠的底线。

基于 TPC-DS 的 Benchmark 实测数据显示,在 AP 典型场景中,OceanBase 共享存储架构的性能损失在 0.3%-1.7% 之间。相较于 AP 场景下成本与性能的提升,该性能损耗可被大多数业务接受。

(六)一体化架构新发展:从存算一体到存算分离

整体来看,OceanBase 从一体化架构到多产品形态有着清晰的演进逻辑:在技术层面,通过单机分布式一体化架构,以及存算分离与存算一体两种存储架构的一体化融合,构建底层技术底座;在用户层面,实现 TP 与 AP 一体化、多模一体化,以及向量与 AI 等融合处理能力一体化。

图片

OceanBase 形成了多元化产品形态:面向线下企业提供企业版与 OceanBase 一体机,在云上 OB Cloud 推出 TP、AP、KV 三个独立产品形态,并基于共享存储架构升级推出相应版本。历经十余年发展,OceanBase 已服务超 2000 家客户。在此过程中,OceanBase 的一体化产品理念不断升级,并贯穿于产品战略演进。

IDC 作为全球领先咨询机构,对 OceanBase 及业界所有数据库长期追踪,并对数千家客户数字化转型需求进行访谈调研,结合生成式 AI 时代对数据库底座的新要求,与 OceanBase 联合发布 OceanBase 一体化数据库小蓝书:《一体化数据库:面向 GenAI 时代更好的数据底座》,进一步明确数据与 AI 融合的技术方向。大家可通过下方地址,下载学习:

https://www.oceanbase.com/whitepaper/genai-data-platform

TP:关键业务负载行稳致远

接下来解读 OceanBase 的新产品进展。从 OceanBase 本身的发展来看,OceanBase 是一款自研数据库,我们始终围绕三个层次满足用户对数据库基础设施的需求:

首先是基础需求,即数据的正确性与可靠性。正如前文提到的单副本场景下,OceanBase 能实现数据 0 丢失,这一基础能力看似天经地义,却是数据库多年的研发突破。

其次是成长需求,即功能迭代与成本优化。从 1.0 到 2.0 版本,OceanBase 持续迭代更加丰富的功能、提升性能、降低使用成本。这个过程不能反过来,不能因为叠加各种功能而忽略了数据的稳定可靠,这对于一个数据库来说,是本末倒置的。这个阶段,OceanBase 有大量商业客户涌入。

最后是高级需求,即深水区的安全与智能运维。随着客户将 OceanBase 用于核心生产系统且稳定运行多年,客户需求逐步转向数据安全保障与灵活可控的数据管理。如何在减少人工优化投入的同时确保数据库的稳定,成为当前阶段需要研究的问题。

(一)面向 TP 场景,助力关键业务系统升级

在 TP 领域,OceanBase 已进入深水区,OceanBase 4.2.5 版本作为 OceanBase 的长期支持版本,在 Oracle 与 MySQL 兼容性、性能以及容灾等方面实现了显著突破,目前该版本已被推荐应用于客户的核心业务场景。值得一提的是,OceanBase 4.2.5 不仅全面支持 MySQL 5.7 和 8.0 版本,还深度兼容 5.7 版本的特殊场景和边缘功能,如罕见的通信协议和系统变量等,为三方生态工具、TP 类工具及运维管控工具与 OceanBase 的无缝兼容奠定了基础,同时也方便 MySQL DBA 将原有业务负载和技术经验平滑应用至 OceanBase 4.2.5 版本。

(二)强化稳定性和安全性,支持更苛刻条件下的业务连续性和合规性

随着业务对稳定性和安全性的需求不断提升,近半年来 OceanBase 在这两方面取得了显著进步。

在保障线上稳定运行方面,OceanBase 强化了应急能力。由于数据库故障不仅仅是软件的原因,流量突增或业务变化也可能超出 DBA 的可控范围。为此,OceanBase 推出了一系列功能:支持通过模板对 SQL 限流,并通过深入剖析多租户架构细节,将可隔离的后台任务从多租户线程中分离,并为用户级表相关功能配置专属线程池,确保系统稳定性。

OceanBase 也针对 DBA 变更操作对系统的影响做了优化。以全局表操作为例,当表中存在与 Oracle 兼容形式的全局索引时,变更时索引容易失效。OceanBase 在版本中新增功能,保障此类全局索引在变更过程中持续生效,维护变更时的系统稳定性。同时,基于 4.0 技术架构,OceanBase 还延伸了异构功能,在进行弹性扩缩容时,能将对已有负载集群的影响降至最低,实现腾挪扩缩容对业务无感知。

在安全性方面,OceanBase 目前已支持 TLS 无密码登录,在通信协议和透明加密等环节支持国密算法,并且首批通过分布式数据库“安全可靠测评” 。

(三)自动分区:手自一体,兼顾性能与易用性

OceanBase 推出自动分区功能,以保障系统稳定与性能、提升产品易用性,这是一个用户呼声很高的功能。此前,OceanBase 通过分区表承载分布式可扩展能力,但需用户手动创建分区规则。自动分区功能可依据数据量大小及主键特性,自动对数据进行分列处理,有效模糊了分区表与非分区表的界限——当数据量较小时,可使用非分区表;当数据量增长时,系统将自动执行分列操作。

自动分区功能同样适用于全局索引场景,无需专门设计分列规则。基于一体化理念,OceanBase 的自动分区与手动分区并不是非此即彼,而是与手自一体深度融合。即便已启用自动分区的表,用户也可以手动分列。这一特性适用于多元业务场景,尤其是 DBA 无暇投入过多精力做数据优化与分布管理的场景,欢迎大家体验试用。

图片

AP:从实时数仓到湖仓一体

(一)OceanBase 4.3.5:面向 AP 场景功能完备的首个 LTS 版本

下面介绍 OceanBase 在 AP 领域的进展。去年开发者大会上发布了 4.3 版本,OceanBase 宣布正式进入 AP 领域,当时是 “PB 级以下的六边形战士”。从 4.3.5 版本开始,OceanBase AP 进入“满血版”。在继承一体化架构底座的基础上,OceanBase 叠加对 AP 场景的专业理解进行功能扩展:4.3.0 版本引入列存表、行列混存表及列存专属副本;4.3 版本持续打磨向量化执行引擎,完成全量算子与函数的向量化改造;同时新增 AP 场景的专属数据类型,助力业务优化分析效率,并构建导入导出数据集成的完整功能图谱。

OceanBase 4.3.5 版本相比 4.3.2 版本,导入性能提升 300%。在列存表中,OceanBase 同时实现三个数据类型:

  • 数组类型:针对人群标签数据分析的场景,假如用关系的方式建模,是多对多的连接关系,建模方式复杂。但由于分析场景的数据更新较少,复杂的建模显得没有必要。OceanBase 的数组功能,支持在单一列中存储完整标签,减少复杂操作,适用于分析场景。
  • Bitmap 功能:基于数组类型进一步优化性能,可提升人群标签圈选、访问量统计等场景的计算效率。
  • 无长度限制字符串类型:在 TP 领域,很多客户选择从 Hive、ADB、Doris 等系统升级至 OceanBase。传统关系型数据库要求字符串类型必须限定长度,而 Hive 等系统无此限制,导致因无法预先确定数据长度而增加复杂度。此外,OceanBase 原有 Text 类型存在不可用于主键等诸多使用限制,进一步影响迁移体验。为解决上述痛点,OceanBase 推出无长度限制的字符串类型,无需限定字符长度即可平滑升级。

在分区管理方面,4.3.5 版本推出自动化分区管理功能,用户可自定义规则,如仅保留最近 3 天或 7 天分区,以及历史分区自动清理、冷热数据分离,进一步提升 AP 场景的运维便利度。

图片

(二)堆表组织表

OceanBase 一直支持索引组织表,其数据按照主键排序存储,这种结构对主键查询场景非常友好。在分析类场景中,若多数查询无需依赖主键进行,且主键仅作为约束而非核心查询维度,传统索引组织表按主键排序的存储模式可能导致数据导入时的排序开销较大。针对这一需求,OceanBase 在 4.3.5 版本的云上 AP 系列中,表的模式默认为堆表组织表。

在堆表模式下,即便创建主键,该主键也将以二级索引形式存在,数据按实际导入顺序自然排序,通常为时间顺序,因此存储层可借助统计信息实现大块数据的智能跳过与查询加速。

(三)嵌套物化视图:数据加工和预处理利器

4.3.5 版本具备非常完备的物化视图功能,在 AP 的典型处理流程中,OceanBase 有三大关键特性:一是天然支持高并发实时写入。OceanBase 作为数据处理上游,并发写入量很高,可直接承接上游高频数据写入,传统 AP 数据库因无法承受高并发写入而必须执行 “暂批” 环节;二是 OceanBase 支持部分数据更新操作,显著优化了从上游 TP 系统到下游 AP 系统的数据流转效率。

针对数仓分层结构的典型需求,OceanBase 通过内置物化视图的解决方案,支持基于物化视图完成从数据明细层到汇总层的加工处理。历经多个版本迭代,当前 OceanBase 的物化视图功能逐渐完善:不仅支持实时物化视图,确保用户查询时获取无延迟的最新数据,还具备 SQL 查询自动改写能力,即使用户查询普通表,系统也会自动将其改写为对物化视图的查询,整个过程透明无感知。

(四)外表和数据湖集成

OceanBase 最新支持基于外表的物化视图功能,这一特性极具应用潜力。当通过外表查询数据湖时,物化视图可作为天然缓存。管理员或用户定义物化视图后,系统会透明地将外表数据加载至数据库内表,只需刷新一次物化视图,即可实现数据湖数据与数据库的无缝整合。

在数据集成方面,OceanBase 的外表功能已相当完善:支持 CSV、ORC、Parquet 三种主流文件格式,可从 HDFS、OSS、S3 等存储介质读取数据。目前在数据湖集成领域,OceanBase 最新支持 ODPS 直接查询,用户无需在 OceanBase 内做专门定义,即可通过 “select ODPS.database.table” 语句直接查询 ODPS 数据。另外,Iceberg 和 Paimon 等对数据湖格式的支持正在开发中,计划于 10 月份正式发布。

OceanBase on Any Cloud

(一)OB Cloud 云数据库

最后介绍一下 OB Cloud 的能力,其中,“一体化”概念包括三个方面:

第一,跨云/多云部署。OB Cloud 支持在不同云厂商部署 OceanBase 数据库集群以实现主备容灾,如主库在阿里云,备库在华为云,为采用多云战略的客户屏蔽在不同云厂商之间的跨云部署的技术壁垒。

第二,一致的体验。OB Cloud 在各个主流公有云平台上提供一致化的购买路径,以及架构统一、功能一致的 OB Cloud 服务。

第三,周边工具一体化融合。OB Cloud 已将 ODC、OMS 周边工具进行一体化融合,用户通过官网登录后,可体验数据迁移、数据评估等无缝衔接的操作流程。

(二)OB Cloud on 百度智能云发布

今天我们很高兴正式宣布,经过数月攻坚,正式发布 OceanBase 在百度智能云上的版本,可更好地满足百度智能云客户对一体化数据管理的需求。百度智能云客户可直接在百度智能云平台购买 OB Cloud 云数据库服务。

(三)OB Cloud 多云数据库安全白皮书发布

随着客户对安全问题的关注度日益提升,无论内外环境如何变化,在企业对数据库应用不断深入的过程中,安全已成为大家关注的重点。OceanBase 在强化内核安全特性的同时,针对云环境的开放性与复杂性,结合对业界前沿安全理念的调研,从产品合规资质、安全特性研发、安全研发流程及多云安全等关键方面持续投入,构建了自底向上的安全架构,形成覆盖产品全生命周期的多层次立体化安全防护体系。

尤其针对多云场景及其他特殊安全需求,OceanBase 开展专项研究,深刻认识到安全防护需要厂商与用户协同合作,用户需要在安全权限配置、数据治理等环节主动参与,才能构建完整的安全防线。

为此,OceanBase 今日正式发布《OB Cloud 多云数据库安全白皮书》,希望用户共同参与,构建多云环境下的数据库安全防护体系。大家可通过下方链接,下载白皮书:

https://www.oceanbase.com/whitepaper/obcloud-security

OceanBase Roadmap

最后,介绍一下 OceanBase 的技术路线图。从内核研发与用户需求视角,主要聚焦四大方向:

  • 在 TP 领域,下半年将推出用户期待的 Interval 分区功能。
  • 在 KV 领域,将时序数据做半结构化压缩,提升 OceanBase 在 KV 场景下竞争力。
  • 在 AP 分析领域,实现对 Iceberg 和 Paimon 格式的支持,新增 Java、Python UDF 堆表功能,允许用户在无主键场景下自定义数据排序规则,优化 AP 查询性能,同时扩展 AP 专属数据类型,支持 Map、Struct 等复杂数据类型。
  • 在 AI 方面,实现 RAG 算法与策略在数据库内核的集成,支持在 OceanBase 内部调用 AI 函数,探索 “AI in Database” 方向,让用户无需编写代码即可通过大模型能力提升数据分析效率。

图片

此外,针对刚刚发布的 4.4 版本共享存储的全新架构升级,团队将重点优化性能表现:引入独立缓存,进一步降低 TP 场景下的时延,确保新架构在稳定性与性能层面的全面提升。

以上是我的全部分享,谢谢大家!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值