阿里巴巴OceanBase数据库十五年沉淀,如何成为AI时代的数据基石

在人工智能技术迅猛发展的今天,数据库的角色正在经历深刻变革。

曾经作为“数据仓库”被动存储信息的数据库,如今正加速演变为驱动业务决策的“智能中枢”。这一转变不仅带来了技术层面的革新,更对数据库系统的底层架构和综合能力提出了全新要求。但技术热点的层出不穷往往容易让人眼花缭乱,真正能够穿越技术周期、支撑企业核心业务稳定运行的,是扎实的工程化能力。

这恰恰成为检验数据库厂商实力的试金石,也是决定企业AI战略能否成功落地的关键所在。“OceanBase对于技术工程化的追求,是他们(客户)选我们的重要原因。”在日前举行的2025 OceanBase年度发布会上,CEO杨冰如此总结过去十五年赢得客户信赖的原因。数据显示,OceanBase当前客户数突破4000家,连续5年客户数年均增长超100%。

延续工程化的理念,今年,针对AI应用需求的爆发,OceanBase重磅推出了首个AI原生混合搜索数据库seekdb,想要推动数据库从传统“业务支撑系统”迈向“AI原生数据入口”。这是这家经历十五年长跑的国产数据库,自启动“Data×AI”战略以来,几经打磨交出的一份新答卷。

十五年技术长跑,淬炼工程化基因

OceanBase的十五年,是一部由真实业务压力驱动的技术进化史,并塑造了其独特的工程化基因。

从支撑支付宝“双11”单日6100万次/秒的数据库处理峰值,到服务全球4000余家企业,OceanBase的每一步都踩在业务需求上,每一次架构跃迁都源于对具体场景难题的攻坚。而业务场景的特殊性,也给OceanBase提出了极高要求,“只有一次机会,一次就要做对。那就意味着从代码设计、代码规范、测试上线等一系列的环节都不能有大的失误。”OceanBase CTO杨传辉表示。

除了场景,据OceanBase内部人士介绍,这种独特的技术文化深深植根于创始人阳振坤的技术理念,并在团队中代代相传。阳振坤博士从项目立项之初,就为OceanBase定下了“做世界级的数据库”这一高远目标,并将“追求极致细节”的工匠精神融入团队血脉,这深刻影响了OceanBase对待技术和产品的态度。

不追求表面炫技,而是专注于解决实际问题,OceanBase内部盛行“用benchmark说话”的风气,任何技术方案的优劣都通过严谨的测试和实际数据来验证。“如果你做的东西没有办法专注到细节,就讲一些泛泛的东西,在OceanBase的技术团队里面是得不到尊重的,大家会觉得你不太懂。”杨传辉坦言。

对工程化近乎偏执的坚守,让OceanBase这十五年的技术演进,经历了几个关键的技术里程碑,它们逐步构建起今日的一体化架构能力。

首先是原生分布式架构的奠基。OceanBase从一开始就选择了两条关键的技术路径:基于LSM-Tree的存储引擎和基于Multi-Paxos的数据一致性协议。LSM-Tree存储引擎为海量数据的高效写入与存储提供了底层支撑,而Multi-Paxos协议则在分布式环境下保障了数据的强一致性。这两项核心技术的选择,展现了团队对分布式数据库本质的深刻理解,为后续所有能力的构建奠定了基础。

其次是单机分布式一体化架构的突破(V4.0版本)。传统认知中,分布式数据库往往意味着复杂的部署和一定的性能损耗,而单机数据库则难以扩展。OceanBase 4.0版本打破了这一固有认知,首创单机分布式一体化架构,使得数据库在单机环境下也能具备分布式能力,同时在分布式场景下保持极致性能。这一创新极大地降低了用户的使用门槛,让企业可以根据自身业务发展阶段平滑演进,无需在架构选择上过早下注。

再次是这次新推出的TP/AP/AI融合的一体化内核(V4.4版本)。面对AI时代的多模数据和混合负载需求,OceanBase 4.4版本首次将TP(事务处理)、AP(分析处理)与AI能力集成于单一内核。这意味着,企业可以在一个数据库中同时处理高并发交易、复杂数据分析以及AI驱动的混合搜索,无需维护多套系统。这种深度融合,是对数据库架构的一次重大重构,充分体现了OceanBase在工程化方面的深厚积累。

通过这三个关键技术节点的突破,OceanBase以工程化能力为驱动,不断重新定义分布式数据库的技术边界,为AI时代的数据底座构建了坚实的技术基础。

工程化内核:正确性、稳定性与架构创新

数据的正确性是数据库的生命线,尤其在金融交易、政务管理等关键场景,一个字节的错误都可能引发灾难性后果。OceanBase将“正确性第一”奉为工程化实践的核心准则,为此构建了一套从代码到硬件的全链路掌控体系。

在软件层面,OceanBase坚持根自研路线,从零开始编写代码,对每一行指令都保持极致掌控。其300万行核心代码中,超过50%用于构建自检机制,从数据在内存中的流转、主备节点间的同步,到落盘存储的校验,形成了一张密不透风的“防护网”。

硬件层面,OceanBase选择绕过操作系统的部分抽象层,直接操控CPU、内存与磁盘资源。通过自研内存管理机制优化数据缓存策略,基于磁盘I/O特性设计存储布局,甚至对网络传输协议进行深度定制,实现了对硬件资源的精细化利用。

“我们内部流行一句话,不相信硬件,也不相信任何的软件,我们只相信我们自己。”在现场,杨冰如此总结工程化精神。这种对工程化的偏执虽然大幅提升了开发复杂度,却为系统稳定性和性能优化奠定了底层基础。

传统数据库架构在AI时代面临严峻挑战:事务处理(TP)、分析处理(AP)与AI推理负载分散在不同系统,导致数据孤岛、链路冗长和资源浪费。OceanBase以一体化架构打破这一困局,其核心在于实现多模数据融合、多工作负载融合与数模融合等“三大融合”,形成真正意义上的一体化数据基座。

在混合搜索场景中,传统架构需调用向量数据库、全文搜索引擎和关系型数据库才能完成一次复杂查询,而OceanBase通过“粗排+精排”多阶段检索机制,可在毫秒级内完成向量语义匹配、关键词精确查找与标量条件过滤的融合计算。

“如果不是工程化文化,我们会走另外一条路线,出5个产品,分布式TP、单机TP、分布式AP、单机AP等都分别出一个,但我们最终只做了一个。这些工程化的挑战被我们‘吃掉’以后,对用户就意味着拿到一个非常简单、高效、统一的方案——这是AI时代的要求,也是现代化数据架构的根本要求。”杨传辉表示。

体现在金融反欺诈场景中,OceanBase能实时响应规定时间段内复杂筛选条件的复合查询,无需跨系统拼接结果。这种原生一体化设计,较传统多系统架构性能成倍提升,同时显著降低运维成本。此外,4.4版本引入的共享存储架构,更是将存算分离推向新高度,计算节点可弹性扩缩、存储成本较传统方案降低50%-90%,这都为AI时代的海量数据存储提供了经济高效的解决方案。

这种架构创新从数据库内核层面深度重构,解决了AI时代打通多云底座的核心能力,也彰显了OceanBase以工程化思维解决复杂问题的能力。

AI时代,以工程化重构数据库能力

面对AI时代多模态数据检索与实时推理的需求,OceanBase推出首款AI原生混合搜索数据库seekdb,以“轻量、敏捷、开源”为核心定位,重新定义AI数据基座的工程化标准。其核心突破在于首创“向量+全文+标量+GIS”四维混合搜索能力,通过“粗排+精排”多阶段检索机制,在百亿级数据规模下实现毫秒级响应。

据悉,seekdb并非简单集成向量搜索插件,而是以工程化思维重构AI数据基座。它继承OceanBase分布式内核的基因,并将部署门槛进一步降低,最低起步配置仅需1核CPU、2GB内存,支持pip install一键安装、秒级启动,兼容嵌入式与客户端/服务器双部署模式,让开发者无需关注底层架构即可快速构建知识库、智能体等应用。

同日,seekdb也宣布以Apache 2.0协议全球开源,无缝对接LangChain、LlamaIndex、Dify等30余种主流AI框架。同步开源PowerRAG智能文档解析框架与PowerMem分层记忆架构,后者在LOCOMO Benchmark测评中以78.70分刷新SOTA纪录,Token消耗降低96%。

OceanBase的混合搜索能力已在联通统一AI知识库、蚂蚁百宝箱智能体等场景充分验证了技术价值。中国联通基于混合搜索构建统一AI知识库,有效解决了私有文档的权限管理与高效检索难题;蚂蚁百宝箱则基于混合搜索实现智能体的实时在线搜索,显著提升了信息获取的精准性与响应效率。

在这之外,数模融合是OceanBase原生AI架构的另一核心突破。数据库内置AI Function能力,支持在SQL中直接调用Embedding模型生成向量,或通过Rerank优化检索结果,形成“数据写入-向量化-检索-推理”的闭环。配套的MaaS平台可管理主流大语言模型与国产GPU算力,实现模型微调、量化压缩、推理加速的全生命周期管理。这种设计使AI能力与数据库内核形成有机整体。

OceanBase的实践印证,唯有通过工程化重构实现的原生AI能力,才能真正突破“数据孤岛”与“性能瓶颈”,支撑企业在AI时代的可持续创新。“这不仅是技术产品,更是开发范式的跃迁。”杨冰表示,“传统数据库只‘存’数据,而seekdb能‘理解’数据语义,混合搜索正是AI原生数据库的关键分水岭。”

OceanBase的工程化能力已在全球市场获得广泛认可,截至目前,其服务的企业客户数量已突破4000家,覆盖金融、政企、能源、通信、零售、制造、互联网等关键领域,服务网络遍及全球16个国家和地区、60多个地域、240多个可用区。

竞争激烈的金融领域,OceanBase凭借金融级的稳定性和可靠性,市场份额位居第一,成为众多金融机构核心业务系统的首选数据库。平安寿险将其7000人规模的财务系统迁移至OceanBase平台,实现了业务的稳定运行和高效管理,充分验证了OceanBase在支撑大型企业关键业务场景下的工程化实力。

除金融领域外,OceanBase在政务和通信行业也取得了显著进展。全国三分之一的省级人社系统都采用OceanBase构建数据底座,有效提升了社保服务的效率和稳定性。通信巨头中国联通基于OceanBase混合搜索能力构建统一AI知识库,成功解决了私有文档的权限管理与高效检索难题,进一步拓展了OceanBase的应用边界。

OceanBase也正积极推进全球化战略,重点布局东南亚、拉美和中东等新兴市场,目标将海外营收占比提升至20%。这一进程中,工程化能力成为克服本地化挑战的关键。在老挝,老中银行采用OceanBase构建核心业务系统,性能提升20倍、批量处理缩至30分钟,成本仅为同类方案20%,实现中国自研数据库海外银行核心系统的首单落地。这些来自不同行业的实践案例,充分证明了OceanBase工程化能力在解决实际业务问题上的有效性,也为更多企业的数字化转型提供了可参考的技术路径。

据Gartner预测,到2028年,支持生成式AI的数据库支出将达2180亿美元,占市场74%。市场潜力巨大,世界数据库行业也将因为AI时代的到来迎接一个新拐点。如杨冰所说,这个拐点不仅仅是工具的升级,更是计算范式以及数据能力的重塑,“把AI能力融进数据库,变成内生动力,打造一个AI Native数据库,这条路会使得我们离世界级数据库的梦想更近

11月18日,2025 OceanBase年度发布会在北京召开。

  作为官宣“DataxAI”后的第一年,OceanBase在这次大会上集中释放了他们对于AI原生数据库的思考,以及面向AI的一系列技术和产品。

  我们在现场看到了OceanBase首个一体化融合版本4.4版本的正式发布,以及面向AI的seekdb数据库的发布,与此同时,我们也看到了基于混合搜索的PowerRAG智能文档解析框架、PowerMem分层记忆架构的开源。

  OceanBase CTO杨传辉说,“数据库领域技术范式已经从原来应用服务,慢慢延伸到AI服务,这其中,混合搜索正在成为AI原生数据库的‘分水岭’。”

  OceanBase CEO杨冰说,“AI时代,让我们离‘世界级数据库’的梦想更近了一些。”

  01 正确性很重要

  作为OceanBase的十五周年年度发布会,今年的发布会有些不同。

  我们在现场看到,在上午的主论坛上,OceanBase这次是率先将客户请上了台,分别由高德地图、平安人寿、爱奇艺、中国联通等各领域代表分享他们的数据库应用历路、数智化转型经历,以及OceanBase为这些企业在业务上带来的变化。

  以如今火爆的视频行业为例,每部视频上线都会经历立项、预算、宣发、拍摄、生产、编解码运营、上线,以及在线售卖这样复杂的过程,以往长视频时代,一年会有上百部视频上线,而随着短视频的兴起,每年上线的视频数量从上百部一直飙升到了上万部。

  为了支撑如此庞大的新业务需求,就需要在技术上寻求突破。

  这些问题,也正是负责中台产品研发的爱奇艺高级总监张冲需要思考的问题。

  张冲在大会上指出,爱奇艺在2011年上线的会员产品中的卡券,在过往14年里经历了五个大的版本迭代,已经累计拥有百亿规模数据量,形成了复杂的技术架构。

  例如,当时在爱奇艺的数据架构中,TP业务基于MySQL,AP业务则是基于Elasticsearch,在数据流服务中需要经历MySQL到Elasticsearch(ES)的准实时同步,甚至也需要进行定期任务归档清理,也是由此,这套数据架构中的每个节点都需要投入大量的精力进行维护。

  据张冲透露,“在这套数据架构中,整个技术需求带来的带来的投入占比最高甚至超过了整个产品研发投入的80%。”

  大量数据同步维护需要额外的RMQ等非必要组件,准实时性分析延时达到分钟级,统计分析准确率低,ES清理归档代价较高、Reindex开销较大,这一系列业务痛点,让爱奇艺在进行第六代卡券研发时,希望可以有一个TP、AP一体化,不需要花精力去处理异构数据,可以尽量少依赖底层的湖仓这类重型产品,同时又可以实现降本增效的数据库产品。

  张冲当时在进行市场调研中发现,OceanBase的数据库产品天生具备TP、AP融合的一体化特性,通过多副本原生分布式形态,又可以很简单地实现从同城双活到异地多活的架构升级,于是决定面向OceanBase进行数据迁移。

  在AP业务经过全量表由ES到OceanBase集群迁移后,AP业务实现了秒级延时,存储压缩高达75%,整体TCO也下降了60%;在TP业务经过MySQL向OceanBase集群迁移后,不仅实现了存储的弹性伸缩,TP业务存储成本也下降了80%。

  如今爱奇艺的第六代卡券技术架构更简单了,简单到只有计算和存储,这其中,高并发、高可用、数据治理、低成本等方面的技术复杂性都被浓缩到了OceanBase一体化产品中。

  爱奇艺基于OceanBase的技术转型,只是OceanBase这些年通过技术工程化优势服务产业的一个缩影。

  回顾过去十五年,杨冰特别强调的是两个关键词,一个是工程化,一个是正确性。

  就工程化而言,杨冰指出,数据库是一个非常复杂的系统,所有复杂系统对工程化要求都很高,既需要有优秀的顶层设计,又需要基于原子化结构一层一层向上搭建,每一部分的原子化都要足够简单、足够可靠。

  OceanBase研发团队正是基于这样的理解,从最基本的原子化结构,将数据结构、基础算法等基础单元打磨好后进行有机结合,由此支撑起这样一套复杂的系统。

  就正确性而言,则是自成立之初就刻在了OceanBase团队骨子里的文化基因。

  早期脱胎于阿里集团和蚂蚁集团的OceanBase,本就需要具备金融级稳定性,在2015年前后完成核心业务替代过程中,花费了大量精力在干“正确性”这件事——当时在数据库应用过程中,但凡涉及数据转移,OceanBase团队都要进行主备之间或多个副本之间的数据校验。

  据杨冰透露,“为了解决‘正确性’问题,OceanBase代码中,有50%以上的代码都在做容错或异常处理,这在生产级系统中是罕见的。”

  正因如此,“不相信任何硬件和软件,只相信自己,”成了OceanBase内部一条延续至今的铁律,也成了OceanBase可靠性、稳定性的基础。

  02 AI原生数据库,OB的设计思路

  2025年4月27日,OceanBase正式对外发布了DataxAI的战略,人工智能由此被写入OceanBase企业战略中。

  那么,在过去这一年里,OceanBase有打造出怎样的AI数据库产品?

  seekdb,正是OceanBase给出的答案。

  seekdb是OceanBase在这次大会上首发的开源数据库产品,准确来说,是AI原生数据库产品。

  杨冰在大会上指出,“seekdb不是传统数据库的功能叠加,而是专为AI时代重构的AI原生数据库,它继承OceanBase的代码和设计理念,更轻量、更敏捷,目标是成为大模型与私有数据融合计算的‘实时入口层’。”

  在会后接受媒体采访时,杨冰对于这一产品还给出了一个形象的比喻,“OceanBase数据库会用增程式方式逐渐将AI能力不断加进来,而seekdb更像是纯电动化方式,以AI原生方式更快速、轻量化探索AI原生数据库的可能性。”

  据悉,seekdb支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合了AI推理与数据处理,并兼容Hugging Face、LangChain等30余种主流AI框架,开发者只需要三行代码,就可以快速构建知识库、智能体等AI应用。

  本质上,seekdb可以称得上是OceanBase一款战略级产品,一款为了加速面向AI创新,面向开发者打造的一款AI原生的混合搜索开源数据库。

  在这款产品背后,还藏着OceanBase一个更大的野心——定义AI原生数据库。

  就AI原生数据库,杨传辉给出的定义是,“面向Agent多模混合搜索数据库。”

  杨传辉在大会上指出,“在AI时代,数据库除了要处理结构化数据,还需要更多去处理半结构化,甚至无结构化的数据,数据库除了是做关系模型,还需要做Json处理半结构化数据,或者针对无结构化数据建立各种语义索引,例如向量索引、图索引、全文索引等,这就需要我们有一套基于结构化、半结构化,以及无结构化数据的各种索引之上的混合搜索引擎。”

  正因如此,杨传辉认为,“向量数据库只是AI数据库的初级阶段,能否支持混合搜索将会成为AI数据库的‘分水岭’。”

  不过,在AI时代,数据库既有变迁,也有不变。

  杨传辉认为,“变的是面向Agent的多模混合搜索复杂的出现,不变的则是一体化架构带来的核心技术能力。”

  杨冰在大会上同样指出,一体化数据库依然会是未来构建企业面向AI时代的数据架构的数据底座。

  这样的一体化被杨冰拆解为三个方面:

  一体化架构,从单机分布式到多云原生,满足AI应用快速迭代;

  一体化存储,从结构、半结构到非结构化数据,支持AI多模数据存储;

  一体化负载,从数据生产、分析到混合搜索,支撑AI原生多元负载。

  实际上,基于这样理念打造的,不仅仅是seekdb,还有此次大会上正式对外发布的OceanBase首个一体化融合版本4.4版本。

  杨传辉在会后接受媒体采访时告诉我们,“seekdb是基于Apache2.0,采用全开源模式和开源社区的开发者们一起快速演进、快速探索的AI原生数据库,seekdb会快速迭代出很多AI原生功能,这些功能OceanBase也会很快地进行跟进。”

  此外,同样是在这次大会上,围绕多模混合搜索数据库,我们看到OceanBase发布了一系列配套产品,这其中既有PowerRAG、PowerMem这样的配套工具,也有MaaS平台、OceanBase AI Stack智能一体机。

  这一系列技术、产品和解决方案,构成了OceanBase面向AI原生数据库的全栈AI初步探索。

  03 借力AI,走向全球

  在OceanBase十五周年之际,我们发现,OceanBase开始加快全球化步伐。

  杨冰认为,要全球化,必然要做好三件事:

  经历世界级挑战、得到顶级客户的认可、在全球主流市场持续拓展业务。

  这三件事,又恰巧与OceanBase的成长经历不谋而合。

  OceanBase出生之初面临的就是“双十一”这样世界级的难题,而在随后的发展过程中,OceanBase又从原本擅长的电商、金融领域,不断向交通、能源、医疗、人社、运营商等领域突破。

  例如,在高增长的智能制造领域,OceanBase服务了宁德时代的GMC电池指标系统升级,单次处理效率从2分钟缩短到30秒,让宁德时代电池电芯流转效率大幅增加;

  再如,在汽车的实时分析场景,OceanBase服务了零跑汽车的“零小跑”营销系统升级,商机时效提升了20倍,解决了零跑汽车“数据查询时效”瓶颈。

  值得注意的是,OceanBase服务的这些中国TOP级企业,正在成为全球顶级玩家,这让这些企业背后的服务商OceanBase的能力开始在全球得到“认证”。

  与此同时,我们还看到,OceanBase在大力打造全球经销体系。

  据杨冰在大会上公布的数据显示,“2025年,OceanBase在专有云方面的收入已经有70%来自于伙伴,公有云方面的收入有30%来自于伙伴,并实现了300%的年增速。”

  在此次发布会上,OceanBase还特别官宣了与用友的战略合作。

  杨冰告诉我们,“应用开发商生态对数据库来说非常重要,而用友在中国的地位类似全球市场中的SAP,通过这样的落地,能够让OB更广泛地渗透到更多的通用场景当中,实际上,我们也在和海外同类的ERP厂商在做对接。”

  一边塑造全球品牌影响力,一边构建全球服务体系,据大会上公布数据显示,实际上,自2020年商业化以来,OceanBase全球客户数已突破4000家,连续五年年均增速超100%。

  这其中,OceanBase的技术和产品已深入金融、政务、通信、零售、制造、互联网等十余领域,服务覆盖16个国家和地区、60多个地域、240多个可用区。

  也是在这样的背景下,全球迎来了人工智能的时代拐点,在这个拐点来临之际,全球计算范式、数据能力经历着一场深刻的变革,这时,全球数据库产业将再次来到一个新起点。

  杨冰在大会上也特别指出,“AI时代,让我们离‘世界级数据库’的梦想又近了一些。

#oceanbase##阿里巴巴#
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务