听说过阿里云的数据中台系统吗?大数据的核心精髓其实就在于此!-

听说过阿里云的数据中台系统吗?大数据的核心精髓其实就在于此!

阿里云服务器优惠

相信在大数据行当里闯的各位同仁对阿里云并不陌生,而研究阿里大数据架构的技术专家们,显然或多或少会知道阿里中台系统,那今天咱就聊聊阿里中台(OneData)的能力演进与整体优劣。

借别人之观点:

广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,对于大多企业,这些能力是能够买到的,因此无所谓积淀,要积淀大多也是别人的积淀,而不是企业的,当然自主研发的除外,比如阿里的ODPS等。

除此之外,数据中台能力可能不仅于此,可能还包括数据模型、算法服务、数据产品、数据管理等,这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的。比如企业自建的2000个基础模型,300个融合模型,5万个标签,这些就是数据中台的延伸能力,它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。

在以这些内容为背景的前提下,我们就知道了所谓中台的核心能力,其实就是数据模型。数据模型是面向业务支撑的底座能力,模型的设计不仅是一门学问更是一门艺术,所以我们看阿里中台系统的模型构架,它包括了ODS层、CDM层和ADS层。

ODS层是数据接入的同步层,它源于各个业务系统,同时面向后续的数据清洗和加工,提供了最初的数据统一接入(数据准备区),涉及到离线数据和(准)实时数据。阿里ODS层设计包含了三个特性:其一是数据同步功能,支持结构化数据增量或全量同步到ODPS;其二是实现全结构化数据转换,能够将非结构化数据(如日志)进行结构化处理后再存储;其三是支持历史数据的积累和清洗,能根据数据业务需求及稽核审计要求保存信息。

CDM层算是中间层了,它包括DWD明细数据存储和DWS公共汇总数据集合,并以维度模型方法为基础,提升公共指标的复用性,减少重复的加工。包括事务型事实宽表、周期性事实宽表、累计快照事实宽表等,同时还支持面向主题域的公共汇总模型。CDM支持个性化分析与自助取数、支持面向应用的数据同步,可以说是数据仓库核心之能力。

ADS层是面向应用和集市的上层能力,它支持个性化指标加工和基于应用的数据组装。

阿里数据中台之OneData也并非是“一次成型”的,它经历了三个阶段的能力演进。

第一阶段:完全应用驱动的时代。这个时期主要将数据以与源结构相同的方式同步到Oracle,那时候的数据架构只有两层ODS+DSS,严格说来基本只有一个ODS层,也基本没有模型方法体系。在这个时期阿里遇到了严重挑战,意识到需要科学规划数据架构。具体包括:数据标准不统一、服务业务能力受限、计算存储负担严重、研发成本高且重复开发的问题;

第二阶段:随着阿里业务的快速发展,数据量也在飞速增长,性能已经是一个较大问题,希望通过一些模型技术改变烟囱式的开发模型,消除一些冗余,提升数据的一致性,所以阿里引入了Greenplum。初步构建数据分层架构,改变烟囱式的开发模式,消除数据冗余并提升数据一致性。在最核心的基础数据层,希望采用工程领域主流的ER模型但遭遇到比较大的困难,主要体现在:互联网业务的快速发展,人员的快速迭代变化,业务知识功底的不够全面导致ER模型设计迟迟不能产出;

第三阶段:引入以hadoop为代表的分布式存储计算平台,确立第三代模型架构(OneData),核心CDM层都采用多维模型。选择了以Kimball维度建模为核心理念的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系。

读到这里,相信对阿里数据中台已经有了一定深入的理解。自然而然的,我们就要说说其整体优劣。

优点:

伴随着业务考验, OneData并非一蹴而就,循序渐进是阶段性演进成果;

既具备开源开放的体系架构,又参考数仓之父Kimball的理念精髓;

是大型企业数据架构的核心参考,因此具备成熟性、先进性和推广性;

缺点:

OneData数据架构并非适用简单业务或小型企业;

架构设计复杂,需要大量经验积累,以堆叠、论证或迭代方式构建;

作为大型企业的架构级能力支撑,OnaData与数据质量、指标体系等其他因素关系密切,必须同步发展;

这是今天分享的主题。

分析世界讲方案,为您带来精彩的一页。

感谢阅读、感谢共鸣。

赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • potplayer
  • directx