本文来自微信公众号:非法加冯(ID:addvon),原标题《国产数据库是大炼钢铁吗?》,作者:冯若航,题图来自:视觉中国
本文来自微信公众号:非法加冯(ID:addvon),原标题《国产数据库是大炼钢铁吗?》,作者:冯若航,题图来自:视觉中国
飞总批评完《2023年,中国对PostgreSQL的贡献≈0》后,又对国产数据库开了一炮:《2023年,国产数据库大炼钢》。那么国产数据库真的是大炼钢铁吗?
大炼数据库
截至2023年底,专门做国产数据库排行的墨天轮,收录的国产数据库达到292种,并且这一数字还在持续增长。考虑到榜单中的一些国产数据库实际上是品牌,其下还有更加细分的具体产品(例如XXDB for PostgreSQL和xx for MySQL),加上没收录的,实际总数应该在三四百之间。
墨天轮收录的国产数据库数量,从2020年底的100多款,在短短三年时间暴涨三倍到了300款。如果我们对比去看全球数据库流行度榜单DB-Engine,里面也仅仅收录了417款数据库,单从数量上看,国产数据库能称得上占据了全球品类的半壁江山,听上去那叫一个威武雄壮。
但当我们审视这些数据库的质量时,问题就出现了。
由CMU副教授Andy Pavlo主办的dbdb.io数据库统计网站收录了来自全世界的960款数据库,但源自中国的只有75款。Andy对此直言不讳:
“有很多中国的数据库我都没收录,因为当我翻译他们的网页时,这些号称自己从零开始自研的全新革命性的数据库系统,从文档/源码上看就是MySQL和PostgreSQL的换皮分叉,这让我很纠结”。
国产化乱象
以关系型数据库为例,来自中国信通院的数据指出,有约2/3的国产数据库产品是基于PostgreSQL与MySQL这样的开源数据库(换皮、套壳、魔改)。
剩下的1/3 ,有基于其他开源数据库(换皮、套壳、魔改)的,有买代码的,有造轮子的,当然也有真自研的。白鳝老师整理了一份国产数据库谱系图,列出了主要的一些基于PostgreSQL与MySQL的国产数据库的血缘关系:
基于成熟流行的开源数据库进行二次开发,包装整合,提供服务——本来是一个很务实的选择。然而问题在于,没有哪个市场能容得下几十上百款底层同质化产品在里面卷翻天。
让我们以世界上最先进、最流行的开源数据库PostgreSQL为例,这也是被套壳最多的内核。在《中国对PostgreSQL的贡献约等于零吗?》中,我们已经提到,PG全球核心开发组中并没有来自中国大陆的核心组成员与主要贡献者。
有内核贡献的中国开发者,基本集中在圈内几个耳熟能详的公司中:Pivotal系、阿里云、WWIT、瀚高、南大等;有能力输出管理最佳实践的成员,基本集中在PG的大甲方用户公司里:平安、去哪儿、探探;来自中国并有国际认可的PG生态开源项目也仅有4个:Pigsty,duckdb_fdw,zhparser,pg_roaringbitmap。很难想象,这样的生态与人才储备足以支撑起几十上百款数据库产品的研发工作,能出几个真正能打的就不错了。
如果这些国产数据库公司真的可以自主可控,能够解决供应问题也就算了,但实际上,在有着成熟开源数据库内核与发行版的现状下,真正卡用户脖子的反而大多是这些所谓的“自己人”。中国基于开源产品“研发”了那么多数据库,把免费的软件套壳卖出高价,而绝大多数却没有对开源社区有任何方式上的回馈。反而经常出现分裂社区,劣币驱逐良币,吃PG饭砸PG锅的情况。
作为对照,真正吃了制裁的俄罗斯就没有这种乱象。墨天轮收录了32款来自俄罗斯的数据库dbdb.io上收录了27款,这个数量比中国数据库少了整整一个数量级。但俄罗斯数据库有国际上拿出来响当当的东西——实时分析数仓ClickHouse与PG发行版Postgres Pro。Oracle制裁俄罗斯,开源的PostgreSQL自主替代吃遍天,请问有谁在数据库这项上真的卡住了他们的脖子吗?
还有能打的
在CSDN最近的开发者调研中,有七成受访者对“国产数据库”持负面印象:“技术落后”“缺乏创新”,这算是一种比较温和的说法。用户心底真正的评价恐怕更为直白:虚假宣传,大放卫星,落后生产力。为什么国产数据库的风评如此之差,难道是软件工程师不爱国吗?
国产数据库并非没有踏实做事的好公司,只是“国产”这个标签被大量钻入数据库领域的平庸低劣产品污染了。在大浪淘沙之下,也有一些金子开始发光。一些扎根国内的数据库产品已经开始走出国门,获得国际认可。
Gartner 每年发布的数据库魔力象限报告,是全球数据库领域最具权威性、参考性的行业报告。在 2023年的报告中,阿里云的PolarDB成为唯一进入领导者象限的中国数据库,或者更大一点——唯一的非美国数据库。
不在四个魔力象限,但被荣誉提及的十家数据库厂商中,也有四家是来自中国的:OceanBase、PingCAP,华为云、腾讯云。在实际战绩——使用率与流行度上,StackOverflow在2023年全球开发者调研中给出了自己的数据。TiDB以0.2%的使用率首次进入榜单,位列第三十二,虽是最后一名,但也实现了从无到有的重大突破。
除此之外,也有一些来自中国其他数据库的内核/管控/产品/工具开始进入国际视野。比如做PG数据库发行版的Pigsty,做数据库模式变更的Bytebase,用K8S跑数据库的Kubeblocks,做时序细分领域的IoTDB / TDEngine,做分析/数仓的更是有好几个不错的产品已经走出国门了。
越是中国的,越是世界的。靠硬实力吃饭的软件不会仅囿于一国:能在全球市场杀出血路,具有全球竞争力和国际影响力,能赚到实打实的外汇,占据全球软件供应链关键生态位的产品,才是最有价值的。
对于数据库,国家搞了信创近乎不计成本地投入。但从资源利用率来说,民营企业还是遥遥走在国家队前面了,能得到国际认可的产品都是敢于直面全球市场竞争与挑战的民企,靠的也更多是那些既有眼光、也敢于冒风险的投资者。尽管数据库大炼钢铁存在着巨大的人力财力浪费,但这个行业里还有不少认真做事情的从业者 —— 所以对国产数据库的未来,我还是看好的。
本文来自微信公众号:非法加冯(ID:addvon),作者:冯若航