当今社会进入了企业数据快速膨胀的时代,近年来全球数据规模平均以40%的速度增长。 云计算、大数据技术并行发展几年后,两种技术逐渐融合,数据平台技术在云计算的帮助下,可以支持更复杂的业务发展需求。 本文介绍了数据云平台,这是一种基于云本机体系结构的第四代数据平台技术。
数据平台技术的发展始于80年代,最初是小型机支持的甲骨文、DB2,是到2000年前后达到技术lmdfy的大规模并行处理MPP技术的复合机,代表性有Greenplum、Teradata; 2000年以后,出现了以Hadoop技术为基础的cloudera、Spark。 目前,基于云本机体系结构的第四代数据云平台技术已成为主流。 数据云平台技术的典型代表国外是2020年上市的snowflake公司,国内是北京偶数科技有限公司。
本文简要分享数据云平台的趋势和特点。
(1)数据平台趋势
)2)数据体系结构的演进
传统的数据仓库满足了企业对结构化数据的管理和APP应用的需求,在数据湖部署了非结构化数据进行格式化处理,并继续通过传统的数据仓库体系结构提供服务。
数据湖的结构有两个明显的缺点。 (1)浪费多个数据、存储空间)2)数据传输可能出现数据质量问题,影响业务。
数据云平台体系结构的出现解决了这些问题。 基于集成的云平台基础架构,通过计算和存储相分离的体系结构实现数据管理和服务。
)3)数据云平台和数据中台有什么区别?
几年前阿里提出了中台概念,数据中台、业务中台、算法中台等层出不穷。 简而言之,中台是指通过软件管理将底层资源作为服务提供给业务部门使用。
数据中心在技术上是业务领域的名词,数据中心的服务场景关系到云服务的基本特性,即服务封装、服务目录、自助服务等。 通过使用资源管理工具,将底层资源封装为不同类型的不同级别的服务,并通过统一的服务目录为用户提供自助服务,业务部门可以从服务目录中将所需的服务自助化但是,数据中心的基础需要数据平台技术的支持。 如果数据平台技术有限,例如,如果批处理运行的性能不能满足业务需求,则数据中心的服务能力也无法支持业务。
从技术角度看,数据云平台是数据平台演进过程中基于最新的云本机技术架构的解决方案。 去年在美国上市的snowflake也是基于分布式云数据库的技术,提出了数据云数据云的说法。
在国内,数据云的代表公司是北京偶数科技有限公司,公司长期致力于云原生高性能数据仓库产品(OUSHUDB )的研发,目前已成为国内领先的国产自主控制技术大数据公司,人工智能和图形数据库2020年下半年偶数科技公司与国内爱分析咨询公司联合编创《数据平台技术发展白皮书》,在数据平台发展趋势分析中首次提出“数据云平台”名词解释,将数据云平台打造为技术结构、技术特征、技术优势、 从业务场景等多个角度进行了详细界定,为国内各企事业单位和公司在大数据平台上的技术选型提供了有价值的参考和指导。 偶数科技自身也推出了数据云整体解决方案,在国内保险、运营商、公安、制造等行业实施方案落地。
2021年3月,星环科技在其产品发布会上宣布,将于5月推出星环数据云(TDC )产品,并提出数据云技术产品也是未来的发展目标。 在偶数科技作为数据云领先企业的推动下,越来越多大数据公司宣布推出数据云解决方案。
)4)数据云平台的技术特点和优势
)5)数据云平台由哪些元素组成?
“数据云平台”是新一代数据基础架构,云本机特性、计算存储隔离体系结构、强大的ACID特性、强大的SQL标准支持、Hadoop本机支持、高性能实现高灵活性、高可扩展性、高共享性、高兼容性、高复杂查询能力、高自动化机器学习支持等上层技术能力的变革,最终帮助企业有效应对
数据云平台的配置主要由云本机数据仓库、数据管理平台、自动化机器学习平台组成整体解决方案。 以偶数科技的数据云平台解决方案而言,主要由OUSHUDB云本机数据仓库、LAVA数据管理平台、Littleboy自动化机器学习平台三大产品组成。
)6)数据云平台典型应用场景
在某世界500强企业进行实时数仓技术选型POC测试后,该企业技术负责人对偶数科技数据云平台技术的赞誉有加。
该企业目前的实时数仓业务场景使用MPP产品实现批量业务,但不能满足进行500并发明细查询的混合负荷需求。 因此,这家企业考虑了两个方案。
)1)在当前轨迹批的生产环境中,引入支持并发详细查询的实时数仓产品,结合MPP产品,在前端获取Kafka流数据后,按数据类型完成轨迹批和实时查询工作。
)2)寻找能够同时支持运行批和实时查询混合负载的数据平台解决方案;
从上述两种方案中,第一种方案无法共享数据。 如果后端数据分析同时需要批量数据和实时查询数据,则必须专门开发将两个不同产品对接在一起的程序。 第二种方案显然可以解决第一种方案的问题,但从市场上看,能够支持第二种方案的技术属于数据云平台技术。
经过POC测试,偶数科技数据云平台达到了客户的第二个方案预期。 在下一步实时数仓建设中,该企业计划分两个阶段建设
设数据云平台集群。
第一阶段:继续采用传统的MPP技术作为日常跑批业务,同时采用实时数仓作为配套方案支持高并发实时查询的业务处理。第一阶段同时规划一个新业务集群,采用数据云平台技术,以满足与人工智能有关的创新业务。
第二阶段:将更多的需要混合负载的复杂业务迁移到数据云平台,逐渐将数据云平台发展成为实时数仓的核心处理和服务平台。
(7)数据云平台的未来发展
不久的将来,数据云平台的技术很快就会成为各大企业数据平台建设的技术主流技术,在人工智能,物联网,区块链等新技术领域发挥其重要价值。欢迎更多的企业同行研究数据云的技术。