(一)数据中台能力架构
根据前期公司规划的数据中台能力架构,数据中台技术能力主要包括数据接入、存储计算、数据分析、数据服务、数据资产管理、运营管理六方面,功能架构图如下所示:
图1数据中台能力架构图
数据接入能力是将各类业务数据汇聚到数据中台贴源层的基本服务能力。数据种类主要包括结构化数据、非结构化数据、采集量测类数据以及E格式文件和特定规约的消息数据。源端包括公司一级部署业务系统、本地部署统推业务系统和自建业务系统、泛在终端设备和外部第三方服务提供商系统。数据接入方式包括数据复制、数据抽取、数据交换等。
存储计算能力是对已接入至数据中台的各类业务数据进行落地存储和加工计算能力。数据存储包括分布式关系关系数据库、分布式列式数据库、时序数据库、图数据库、分部署数据仓库,数据计算方式包括批量计算、流计算、内存计算。
数据分析能力是为分析模型和分析算法提供管理,为数据报表与可视化展示提供工具集。
数据服务能力是提供Restful等各类形式的API服务接口的统一注册、管理和调度,实现内对外数据服务统一访问。
数据资源管理能力是对数据资产体系的模型、目录、数据标签等进行全面管控。
运营管理能力是对数据服务和脱敏规则等进行参数配置,对链路进行安全监控和调度计量,对数据开发提供在线交互功能,是实现数据全生命周期监控的基本工具集。
(二)阿里组件能力架构
根据数据中台技术能力架构,数据接入、数据计算存储、数据分析、数据服务、数据资产管理、数据运营管理六方面能力对应阿里公司16种技术组件,对应1种公司自研组件,六大能力,具体如下图所示:
图2阿里数据中台组件架构
数据接入方面,包括DataHub、DTS、DataWorks DI三种组件,其中DataHub组件功能类似开源Kafka组件,主要用于结构化数据增量和采集量测类数据实时接入;DTS组件功能类似Oracle OGG组件,主要用于存储结构化数据的关系型数据库间的数据复制和迁移;DataWorks DI组件功能类似Informatica组件,主要用于结构化数据全量抽取或增量标识的数据增量抽取。
数据存储计算方面,包括MaxCompute、DRDS、OTS、TSDB、Blink、MaxcomputeSpark、GraphCompute、OSS总计8种组件,其中MaxCompute组件在数据存储上类似开源Hive+HDFS,同事提供分布式数据仓库和离线计算服务,Maxcompute Spark提供内存计算服务,MaxCompute Analytic类似GBase数据库,提供即席查询和多维汇总计算能力;DRDS组件与RDS组件结合提供分布式关系数据库服务;OTS组件功能类似开源HBase数据库,用于海量结构化数据存储;TSDB组件功能类似开源OPEN TSDB 组件,主要用于采集量测类时序数据存储;Blink组件功能类似开源Flink组件,用于流式数据实时计算,OSS组件为对象存储,可用于存储非结构数据。
数据服务方面, 包括DataWorks组件和CSB组件,用于数据服务封装,服务封装后统一注册至云上API网关对外服务。
数据分析方面,包括QuickBI组件,用于数据自助式分析和报表可视化展示。
数据资源管理和运营管理方面,包括DataWorks、DataQ组件,其中DataQ组件主要用于标签管理,数据资源管理和运营管理能力由DataWorks统一提供。
(三)华为组件能力架构
根据数据中台技术能力架构,数据接入、存储计算、数据分析数据服务、数据资产管理数据运营管理六方面能力对应华为公司多个技术组件,具体如下图所示:
图3华为数据中台组件架构图
数据接入方面,主要包括SDR、DAYU、OGG+Kafka,适用于不同的场景。其中SDR组件功能类似OGG,主要用于关系型数据库的数据复制和迁移,支持数据全量抽取或增量数据实时抽取。DAYU组件功能类似Informatica,主要用于结构化数据全量抽取或对带增量标识的数据批量抽取;Kafka主要用于采集量测类数据实时接入。
数据存储计算方面,包括GaussDB100、GaussDB200、FusionInsightHD(Spark、Flink、Hive、HBase、Redis等)等组件, 其中GaussDB100组件提供分布式关系数据库服务;GaussDB200组件提供分布式数据仓库服务;Hive组件提供基于Hadoop分布式数据仓库和离线计算服务;Spark提供内存计算服务;HBase列式数据库,提供海量数据存储和实时查询的能力;Redis组件提供高性能的key-value数据存储计算能力;Flink组件提供高性能的流式计算能力。OBS组件为对象存储,可用于存储非结构数据。
数据服务方面, 包括APIG组件,用于数据服务封装,服务封装成统一接口注册到API网关对外提供数据服务。
数据分析方面,包括数据分析组件,用于数据自助式分析和报表可视化展示。
数据资源管理和运营管理方面,包括DAYU、数据治理组件,其中DAYU组件主要用于数据集成、数据开发,数据资源管理和运营管理能力由数据治理组件统一提供。