12月20日-21日,由中国信通院、中国通讯尺度化协会主办,中国通讯尺度化协会年夜数据手艺尺度推动委员会承办的“2023数据资产治理年夜会”在京召开。在会上,第七届年夜数据“银河(Galaxy)”案例评选成果正式发布。中移在线办事有限公司(中移在线)与酷克数据结合申报的《基在云原生化的数据仓库平台,实现数据算力交付效力周全晋升》项目,凭仗全栈自立可控、灵敏高效、平安不变的进步前辈特征,成为业内首个容器化摆设的年夜范围云原生数据仓库,荣膺2023年夜数据“银河”数据库优异案例奖。
年夜数据“银河(Galaxy)”案例征集勾当首要面向甲方落地单元,旨在经由过程实地出产案例与场景,总结和推行真实可用的年夜数据实践与经验,在国内年夜数据财产具有公认的行业标杆性和极高的承认度。
第七届年夜数据“银河(Galaxy)”案例征集包罗数据库与其他五项年夜数据利用标的目的,笼盖电信、金融、政务、能源、制造等行业。案例征集自9月启动以来,遭到了业界领先甲地契位与厂商的普遍存眷。颠末情势审查和专家评审,共评选出数据库优异案例26个。
项目布景
中移在线营服数据处置平台扶植早期采取了那时业界普遍应用的“Hadoop+MPP数据库”混搭架构作为数据仓库。跟着数据量的不竭增加,平台扩容和运维漫长繁琐,没法知足高时效性、高主要性利用的成长需求。
环绕团体公司付与的“全网集中办事的供给者、渠道运营的集中支持者、营业的后台集中处置者”的定位,中移在线向云原生手艺积极结构。颠末普遍的市场调研和产物比力,终究以酷克数据的存算分手、弹性并行处置(EPP)数据库产物——HashData云数仓为焦点,实行Vertica周全替代,构建同一高效、灵敏智能、湖仓一体的数据系统,供给同一、多样化、面向利用、面向主题的数据办事能力,为中移在线数字化转型供给壮大的数据能力底座。
起首,在本项目中,中移在线采取HashData EPP数据仓库,与原有根本云平台、对象存储集成,采取容器化摆设体例成立起云原生数据仓库。
传统MPP架构的数据仓库,因为数据量年夜,收集、IO吞吐量高,没法采取容器化摆设,难以实现资本操纵的效力最年夜化。中移在线和酷克数据的手艺团队降服了收集、存储、调剂、治理等方面碰到的诸多手艺挑战,冲破过往容器化仅用在无状况利用场景或开辟测试情况的限制,采取k8S+HashData 的手艺线路,在国内率先建成现实出产情况下的容器化摆设年夜范围云原生数据仓库。
图1:基在容器化摆设的云原生数据仓库解决方案
基在HashData存储、计较、元数据三者分手的架构,借助更轻量级的容器虚拟化手艺,进一步扩大了云原生数据仓库平台的弹性伸缩优势,和高可用能力、主动化运维能力和资本灵敏交付能力,年夜幅晋升了项目交付速度,下降了数据迁徙和拓展难度,实现计较资本和交付效力的周全晋升。
比拟原稀有据处置平台,基在容器化摆设的HashData云数仓,具江南体育有高可用、高并发能力,计较资本可程度无穷扩大、撑持秒级扩缩容等能力,而且在扩缩容时代不影响营业持续性,知足分歧场景营业数据计较、查询需要,实现了计较资本快速摆设、高效交付的扶植方针。
同时,在项目实行进程中,中移在线在HashData云原生数据仓库平台计较引擎层构建起多种异构数据手艺组件的生态兼容能力,采取融会阐发手艺,撑持把焦点仓库区的数据与年夜数据区的数据进行联系关系融会阐发,削减数据搬家,晋升加工效力和数据资本操纵率,知足公司营业部分日趋复杂的阐发场景需求。终究,经由过程云原生数据仓库与流处置系统、批处置系统、数据湖、对象存储的集成,实现了数据高效会聚,和分歧存储之间数据低本钱活动与透明拜候,助力数据高效融通、赋能出产运营。
另外,本次项目充实阐扬了HashData丰硕的接口能力与各类开辟说话和上下流生态软件兼容性强的特征,顺遂实现了云原生数据仓库与现有报表指标东西、智能统计东西、数据洞察东西、自助阐发东西、研发云平台等系统的兼容适配,面向用户供给高效的数据检索与阐发能力,晋升用户数据利用效力和体验,晋升用户数据利用率。
在存量数据利用迁徙方面,借助HashData云原生数据仓库引擎用户自界说函数、用户自界说数据类型的特征,连结数据库引擎间的兼容性;另外,经由过程HashData完美的迁徙东西功能,优化迁徙方案,最年夜水平地实现了存量数据利用的“一键式”主动迁徙和验证操作,年夜幅缩减了迁徙人力投入和整体项目周期,快速释放新平台营业价值。
图2:Vertica存量利用东西化迁徙方案
项目亮点
在本项目中,中移在线采取了HashData作为构建云原生数据仓库平台的焦点引擎。依托HashData壮大的数据查询阐发能力和云计较弹性伸缩能力,新平台在手艺架构、资本交付、营业赋能等方面实现了全方位晋升:
·数据仓库系统架构立异
HashData云数仓解决了传统数据仓库在存算耦合、弹性伸缩、元数据治理等方面的短处,各模块之间完全解耦,并采取散布式摆设,解脱了传统MPP数据库的各类架构限制和制约,为客户供给成熟不变的海量数据治理平台,最年夜限度释放数据价值。
·数据仓库容器化摆设立异
中移在线在国内率先在现实出产情况实现了云数仓容器化年夜范围摆设和利用。经由过程采取K8S+HashData手艺线路,新平台具有秒级快速扩缩容、读写分手、高可用、主动化运维、资本灵敏交付等能力,快速知足营业成长需要,同时也进一步晋升了资本操纵率,赋能企业降本增效。
·矫捷高效的资本隔离能力立异
基在存算分手的架构,项目实现了根本举措措施资本和利用解耦,可以按照计较集群的工作负载转变,矫捷、动态调配计较集群资本。计较集群间机能彼此隔离,资本和操作完全自力,不会发生彼此竞争 CPU、内存和IO的环境,自在应对纷纷复杂的数据利用场景。
·利用驱动的主动缓存能力立异
HashData缓存采取LRU算法,实现了按需、主动化的缓存治理,晋升了热门数据拜候效力,让底层存储更高效知足上层利用需求。
·智能化自愈能力立异
HashData供给了治理组件及时监控全部集群的运行状况,当感知到节点故障时将主动履行分歧策略下的恢复操作,实现故障自愈,包管全部数仓办事实现高可用,有用顺应数仓平台从决议计划治理辅助系统到营业运营要害支持平台的改变,并知足用户对平台全天候可用性的预期。
项目价值
基在容器化摆设的云原生数据仓库的建成,有用支持了中移在线打造开放式数据生态系统,鞭策将数据变成资产并办事在营业,以数据驱动营业增加,实现数据可见、可用、可经营,驱动营业立异和数据治理提速增效:
·深化云原生手艺利用,实现数据根本平台架构云化进级
本次云数仓平台扶植,是中移在线实现全部数据根本平台架构云化进级的主要一环。操纵HashData云架构的可自由伸缩、矫捷调配等优势,年夜幅晋升计较资本快速摆设、高效交付能力,支持架构立异、数据生态、彼此融会的特点数据系统,赋能公司将来营业高质量成长。
·构建OneData数据平台,实现真正意义上的企业级同一数据视图
在本次云数仓平台的扶植中,将过往分离在四套自力Vertica集群中的数据同一迁徙至全辖同享的对象存储,以更低本钱、更高扩大性和靠得住性,实现了全数数据资产的同一数据平台纳管,成立起真正意义上的企业级同一数据视图,消弭了数据孤岛,避免了数据二义性对营业阐发的影响,年夜幅下降了数据的利用与保护本钱。
·解耦数据利用与数据库集群资本,实现资本治理与运维治理新范式
基在HashData的松耦合架构,立异性实现了数据利用与数据库集群资本的解耦,成立起同一的数据阐发算力资本池,实现资本细粒度的治理与调剂,撑持离线计较与在线计较使命混部,到达峰谷互补的结果,年夜幅晋升办事器资本操纵率。
·成立湖仓一体数据系统,实现分歧组件间数据高效融通与同享协作
本次项目成立起了以HashData云数仓为焦点的湖仓一体数据系统。经由过程外部表和毗连器这两类组件,实现了面向异构计较工作资本负载下的同一多维度查询阐发办事架构,撑持在多种计较引擎间共用计较和存储资本,避免了多量量数据的搬家,有用下降了整体数据链路的本钱、价格和复杂性,晋升加工效力和数据资本操纵率,知足公司营业部分日趋复杂的阐发场景需求。
图3:中移在线云原生化数据仓库平台湖仓一系统统集成解决方案示意图
·完美迁徙东西功能,实现存量利用“一键式”快速高效光滑迁徙
在存量数据利用迁徙方面,经由过程HashData完美的迁徙东西,最年夜水平实现了存量数据利用的“一键式”主动迁徙和验证操作,在较短时候内完成了约600T存量数据、10万个表、2000多个ETL剧本迁徙与转换工作,节流了年夜量人力本钱。
同时,在经济效益方面,利用HashData云数仓比在原有Vertica平台根本上扩容进级节流跨越万万元;采取存算分手架构和容器化摆设手艺方案,硬件资本节流到达30%。
本次项目中,中移在线不但完成了对传统手艺栈的替换,更主要的是在数据仓库平台架构方面实现了手艺立异。基在容器化的云原生数据仓库平台,采取全栈信创架构手艺栈,撑持一云多芯(x86/C86/ARM)、一库双栈(通用/信创),在实现公司数字资产治理和运营全栈自立可控的同时,也实现了数据线周全手艺进级。
云原生数据仓库平台从硬件、操作系统、数据库三个维度以信创供给链为根本搭建手艺架构,具有高可用、易拓展等特点,连系容器化手艺,构建根本算力与存储资本可同一治理、动态调配、灵敏交付,且无对外办事故障“断点”的年夜数据办事系统。
本次项目全栈自立可控,统筹平安不变与灵敏高效,实现了数据算力交付效力周全晋升,为中移在线周全晋升营业处置的数智化程度奠基了坚实根本,为营业效力与手艺融会立异供给了有力支持。
将来,中移在线和酷克数据将积极响应国度和行业号令,环绕“数字经济、信创工程、立异驱动”的成长计谋,积极推动手艺架构转型进级,赋能数据高效融通,为晋升线上营服能力、营销转化能力修建壮大数据融通计较底座。
关在酷克数据
酷克数据是中国领先具有自立可控研发能力的数据仓库软件厂商,焦点团队首要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计较、散布式数据库和年夜数据专家构成。凭仗深挚的手艺堆集和极具前瞻性的产物理念,HashData数据仓库已普遍利用在金融、电信运营商、能源、当局、交通物流和互联网等多个行业领先客户。
关在中移在线
中移在线办事有限公司是中国移动在数字化时期全新设立的全资专业子公司,致力在以更高的办事效能,更优的办事质量,做数字办事的供给者和立异者,成为客户满足、社会相信的出色办事品质缔造者。
责任编纂:刘明德