近期,知名开源数据仓库项目 Greenplum 的 GitHub 仓库被忽然归档,并将拜候权限点窜为只读,激发了数据库社区的极年夜存眷。
值得存眷的是,客岁国内云原生数据仓库厂商酷克数据研发并开源了 CloudberryDB 数仓产物。作为 Greenplum 的衍生版,CloudberryDB 不但可以或许实现对 Greenplum 原生级兼容和无缝迁徙,更在功能、机能和平安性方面进行了周全的进级。
01 Greenplum 重回闭源?源码归档激发业界猜想
Greenplum 基在 Postgres 并采取年夜范围并行处置架构(MPP "Massively Parallel Processing",年夜范围并行处置)打造的散布式数据仓库系统,撑持对PB 级别数据量供给壮大和快速阐发能力。
Greenplum 的汗青可以追溯到 2003 年,它在 2006 年推出了基在 PostgreSQL 的 MPP 数据库。2010 年被 EMC 收购,随后在 2013 年 EMC、VMware 和 GE 配合成立了 Pivotal 公司,Greenplum 数据库也被整合进 Pivotal 的手艺栈中。2015 年,跟着 Dell 收购 EMC,Pivotal 决议将 Greenplum 开源。2018 年 Pivotal 上市,但在一年半后被 VMware 收购并退市。2021 年末,Dell 决议拆分 VMware,而到了 2023 年末,VMware 被博通收购。
几经转手以后,Greenplum 的贸易成长也不尽如人意。博通收购 VMware 后,Greenplum 的全球交付团队遭到裁人,贸易化团队退出中国市场。近期 Greenplum 更是将源代码仓库归档,且拜候权限点窜为仅撑持「只读」,项目全数过往 Issue、Pull Request 等记实已消逝、中文网站也已不成拜候、Slack 交换社群也遭封闭。
https://github.com/greenplum-db/gpdb
Greenplum 源代码仓库的拜候权限点窜为了“只读”,同时还清空了原本的 branch、tag、pr、issue 等信息。
Greenplum 中国官网没法拜候
归档意味着甚么?是不是闭源?有很多人猜想,Greenplum 的贸易化进展遇困,博通为了简化产物线,来集中资本成长其他焦点营业。又或是博通先将 Greenplum 闭源,整合内部资本,追求开源与贸易化之间均衡策略。但事实成果若何?今朝还不得而知。这无疑让人对 Greenplum 用户和社区介入者的将来感应耽忧。
作为世界上第一个开源的年夜范围并行数据库,Greenplum 有着深挚影响力的开源社区,充实影响着其他后来同类产物的成长。但是,跟着数据源愈发多样、各类营业场景对数据的阐发处置能力要求愈发复杂,这对传统的阐发系统倡议了挑战。来自开源基金会和各办事厂商面临新需求新挑战推出了良多有竞争力的开源项目和贸易化办事。
在万马驰骋的时期,Greenplum 可以或许有所应对但还不敷。Greenplum 原保护团队可以经由过程自研和借力 PostgreSQL 生态扩大来撑持相干标的目的需求,但社区版的功能迭代与 bug 修复的速度已慢了下来,良多场景所需的进步前辈功能仅存在在贸易公司推出的企业版本,社区用户获得坚苦。
当前用户非分特别存眷数据库系统机能和平安特征,Greenplum 社区版在此投入资本也不多。Greenplum 在 PostgreSQL 内核进级方面很是迟缓,很多来自 PostgreSQL 上游的进步前辈特征与功能没法快速推送给社区用户。颠末多年鞭策 Greenplum 才将内核进级到 PostgreSQL 12 ,但 PostgreSQL 官方将在 2024 年 11 月住手保护这一版本。
最近几年来 Greenplum 在新功能推出、更新程序上多是小修小补,特别在数据库机能方面并没有较着的改良,与其他出现出来的新生代开源项目竞争缺少竞争力。
02 接棒再动身,CloudberryDB 为开源注入新活力
曩昔几年 Greenplum 的公司和团队始终处在动荡当中,直接或间接致使版本进展迟缓、立异不足、手艺撑持有限等近况。为了响利用户需求,鞭策开源生态,国内云数仓厂商酷克数据(HashData)基在 PostgreSQL 与 Greenplum 研发了面向 AI 和阐发场景打造的新一代数据库 CloudBerry Database (以下简称“CloudberryDB”),并在客岁正式开源。
CloudberryDB 助力企业矫捷应对数据新挑战
酷克数据成立在 2016 年,是国内最早专注在云原生数仓研发推行的软件企业,公司旗舰级产物 HashData Enterprise 已深度办事在金融、电信运营商、政务、能源和互联网等多个行业的头部企业,此中最年夜客户范围已跨越 30000 个节点。
凭仗原厂以外最年夜的 Greenplum 原始开辟者团队,酷克数据取得了业内领先的手艺贮备和实践能力。
基在 MPP 数据库的深度理解、国内年夜客户的办事实践经验,和开创团队的持久开源社区介入,酷克数据研发并开源了 CloudberryDB 数仓产物。
作为 Greenplum 的衍生版,CloudberryDB 与 Greenplum 连结原生兼容,并能实现无缝迁徙,具有更新的内核和更丰硕的功能。CloudberryDB 撑持丰硕的数据类型和数仓/AI 夹杂负载,可展开 SQL 阐发、机械进修、全文检索、HTAP 等使命,经由过程数据存储加密、结合身份验证等手艺手段,帮忙企业更便利地自建高效不变的数据底座。
CloudberryDB 既能知足单机当地快捷摆设,也能经由过程插件自由扩大为云原生架构,具有高弹性、高并发、湖仓一体化、扩缩容矫捷等优势。SQL 引擎基在并行处置(MPP)架构,撑持多计较集群摆设,具有壮大的并行计较能力,可以轻松撑持高并发,有用隔离夹杂工作负载。
在摆设体例上,CloudberryDB 采取 100%纯软方案,撑持裸金属、虚拟机、容器化等多种摆设体例,企业开辟人员可使用 R、Python、Perl、Java、 pgsql 等说话编写用户自界说函数(UDF),面向多计较集群摆设,实现专属的营业需求。
CloudberryDB架构与矫捷摆设形态
另外,CloudberryDB 还周全集成 PstgresQL 14.4,撑持 ANSI SQL 2011,内置丰硕的库内阐发模块,具有壮大的 SQL 阐发功能,知足企业进行海量数据的复杂阐发需求:
·撑持 Multi-range 、JSON、JSONB、XML 等多种类型,并供给了相干操作、函数撑持。
·撑持 UPSERT,增添 INSERT ... ON CONFLICT 语法,在产生束缚冲突时可以转换成 UPDATE 语义,对数据导入友爱。
·增添新语法便利数据更新:UPDATE tab SET (col1, col2, ...) = (SELECT col1, col2, ...)。
·撑持规模、列表、哈希等类型的分区,撑持多层分区嵌套,撑持分区治理操作。
·撑持 BTree、Bitmap、Hash、GIN、 BRIN、GiST 等多种类型的索引。
·撑持物化视图,撑持复杂查询,如:CTE、递归查询。
·postgres_fdw 撑持堆积下推, 削减传输数据量。
·答应窗口函数履行增量排序。
·撑持 just-in-time (JIT) 编译。
·撑持建立笼盖索引。
·引入 PostGIS 插件,实现了对空间数据类型、空间索引和空间函数的撑持。
·基在 CBO 优化器,CloudberryDB 撑持基在价格模子的堆积下推能力,可以或许有用削减 Join 运算的数据量,年夜幅晋升机能。
·改良了 CBO 优化器,以生成更智能高效的查询打算,顺应云和夹杂负载情况。
·撑持基在价格的堆积下推,削减 Join 数据量并晋升机能。
·操纵 Runtime filter 手艺进一步加快 Join 运算。
……
CloudberryDB 研发了新型行列混存手艺,在包管写入效力的环境下,操纵查询时跳块过滤和估计算,年夜幅晋升查询机能。CloudberryDB 还操纵向量化对算子进行了针对性的注意优化,带来了数目级的效力晋升收益。
为确保企业数据的平安,CloudberryDB 采取了同一认证、按需授权、平安存储、动态脱敏等体例,构建了多层级平安系统。
在生态方面,CloudberryDB 完善兼容第三方产物,与主流 BI 东西、发掘猜测东西、ETL 东西、J2EE/.NET 利用法式和其他数据源/计较引擎均有杰出连通。
CloudberryDB产物兼容生态
CloudberryDB 内置了散布式并行向量数据存储、索引和检索功能,企业可以经由过程酷克数据自研的 AI 开辟东西箱 HashML,将当地的文本、图象等非布局化数据转化成向量暗示,构建散布式年夜范围多模态向量常识库,让 AI 利用开辟变得加倍简单便捷。
延续构建开放、友爱、中立的开源社区
站在伟人的肩膀上,借助 Greenplum、PostgreSQL 等伟年夜开源项目标坚实根本,CloudberryDB 才能不竭立异,力图为泛博开辟者和用户带来加倍出色的产物体验,这也是 CloudberryDB 研发初志。
在许可和谈上,CloudberryDB 采取了宽松的 Apache License V2.0 和谈,期望付与社区成员更年夜的自由度和矫捷性,并鼓动勉励社区成员自由利用、轻松复制、按需点窜,或将 CloudberryDB 从头分发或融入本身的贸易产物与办事中。
CloudberryDB 秉承国际尺度、高点定位、全球视野的运营理念,致力在构建一个开放包涵、友爱合作、中立公道的社区情况,让每位社区成员都能在这里找到归属感,配合为 CloudberryDB 的前进进献气力。
我们有来由相信,经由过程群策群力、集思广益,CloudberryDB 社区将在将来绽放出更多光华。
责任编纂:刘明德