大数据分析生命周期(什么是数据生命周期管理

按图像从四轴架

背景

在这篇文章中,我想根据从我最近出版的《构建大数据和分析解决方案-与IoT和云集成》这本书中摘录的要点,提供大数据生命周期管理的体系结构的概要。 了解这个过程对大数据解决方案的设计和设计至关重要。

大数据与以往的数据不同。 主要差异来自于数据生态系统中数据集的数量、速度、多样性、准确性、价值、整体复杂性等特征。 理解这些v形可以提供对大数据本质的有用见解。

业界和学术界对大数据有很多定义,但是我同意的最简洁、最全面的定义来自Gartner。 “大数据是大容量、高速、多样化的信息资产,需要高性价比和创新的信息处理方法来提高洞察力和决策能力。”

这个定义中缺少的关键词只有“正确性”。 我还补充说,这些特征相互关联,相互依存。

作为

大数据生命周期管理简介

大数据解决方案架构师,我们需要作为技术负责人参与生命周期的所有阶段。 因此,需要了解数据生命周期管理流程。

我们的作用和责任可能因阶段而异; 但是,从端到端的角度来看,它必须处于生命周期管理的顶层。

从体系结构和解决方案设计的角度看,典型的大数据解决方案与传统的数据生命周期相似,在整个数据生命周期解决方案中可以包括12个不同的阶段。

大数据解决方案架构师参与生命周期的所有阶段,为每个阶段提供不同的输入,并生成不同的输出。

这些阶段可以在不同的数据解决方案团队中以不同的名称实现。

随着这个领域的发展,业界对大数据的生命周期没有严格的通用系统方法。

典型的方法是迁移和加强传统数据管理经验,以适应特定解决方案的用例。

为了对有抱负的大数据设计师的认识和指导,我提出了以下不同的阶段。 在几个成功的数据架构项目中,我使用了这个模板,确保了解决方案正确地覆盖了生命周期。

第1阶段:基础

第2阶段:获取

第三阶段:准备

第4阶段:输入和访问

第五阶段:处理

第6阶段:输出和解释

第7阶段:存储

第8阶段:整合

第9阶段:分析和可视化

第10阶段:消费

第11阶段:保存、备份和归档

第12阶段:销毁

让我介绍一下各个阶段的概要和几个指导点。

这些阶段的名称可以根据大数据解决方案的需要和组织的数据实践进行定制。

重要的是,这些名称不是不变的,而是作为参考。

阶段1:基础

数据管理流程包括基本阶段,包括了解和验证数据要求、解决方案范围、作用和责任、数据基础架构准备、技术和非技术考虑,以及对组织中数据规则的了解。

这个阶段需要详细的计划,最好由数据解决方案项目经理辅助,大数据解决方案架构师和部分数据领域的专家提供很多意见。

大数据解决方案项目的项目定义报告(PDR )包含计划、资金、业务、资源、风险、假设、问题、依赖关系等详细信息。 虽然项目经理编辑并创建PDR,但是Big Data Architect提供了此重要工件的解决方案的概览。

阶段2:数据采集

数据收集是指收集数据。 可以从各种来源获得数据集。 这些来源可以在商业组织内外。

数据源可以是结构化格式,如从数据仓库、数据集市、各种交易系统迁移等,也可以是半结构化源,如Weblog、系统日志等,还可以是非结构化源,如视频、音频、图像等

虽然数据收集由各种数据专家和数据库管理员进行,但大数据架构师在优化这个阶段中扮演着重要的角色。

例如,数据管理、安全性、隐私和质量管理从数据收集阶段开始。 因此,大数据架构师在这一阶段处于技术和体系结构的领先地位。

首席大数据解决方案架构师将与企业和业务架构师进行联系,指导和记录这一阶段的数据收集战略、用户需求、体系结构决策、用例和技术规范。

对于大型企业组织的全面解决方案,首席大数据架构师可以将其中的一些活动委托给各个领域的架构师和数据专家。

阶段3:数据准备

在数据准备阶段,清理或清除原始格式的收集数据。 这两个术语可以在各商业组织不同的数据实践中交换使用。

在数据准备阶段,严格检查数据是否有不一致、错误或重复。 删除了冗余、重复性、不完整和不准确性的数据。 目的是拥有可以干净使用的数据集。

大数据解决方案设计师促进了这个阶段。 但是,由于活动的粒度,大多数数据清理任务都可以由经过数据准备和清理技术培训的数据专家执行。

ass=”pgc-h-arrow-right”>阶段4:数据输入和访问

数据输入是指将数据发送到计划的目标数据存储库,系统或应用程序。

例如,我们可以将干净的数据发送到确定的目的地,例如CRM(客户关系管理)应用程序,数据科学家的数据湖或供特定部门使用的数据仓库。 在此阶段,数据专家将原始数据转换为可用格式。

数据访问是指使用各种方法访问数据。 这些方法可以包括使用关系数据库,平面文件或NoSQL。 NoSQL更为相关,并广泛用于各种业务组织中的大数据解决方案。

即使大数据解决方案架构师领导了这一阶段; 他们通常将详细的活动委托给数据专家和数据库管理员,他们可以在此阶段执行输入和访问要求。

处理

数据处理阶段从处理原始数据形式开始。 然后,我们将数据转换为可读格式,并为其提供形式和上下文。 完成此活动后,我们可以使用业务组织中选定的数据分析工具来解释数据。

我们可以使用常见的大数据处理工具,例如Hadoop MapReduce,Impala,Hive,Pig和Spark SQL。

我的大多数解决方案中流行的实时数据处理工具是HBase,近实时数据处理工具是Spark Streaming。 市场上有许多开源和专有工具。

数据处理还包括诸如数据注释,数据集成,数据聚合和数据表示之类的活动。

让我总结一下,以引起您的注意。

数据注释是指标记数据。 例如,一旦标记了数据集,就可以为机器学习活动做好准备。

数据集成旨在合并存在于不同来源中的数据,并旨在为数据使用者提供统一的数据视图。

数据表示是指处理,传输和存储数据的方式。 这三个基本功能描述了生命周期中数据的表示形式。

数据聚合的目的是将数据库中的数据编译为要用于数据处理的组合数据集。

在数据处理阶段,数据可以根据消费者需求更改其格式。 处理后的数据可用于数据湖,企业网络和连接的设备中的各种数据输出中。

我们可以使用各种工具(例如Spark MLib,Spark GraphX和其他几种机器学习工具)进一步分析数据集,以用于高级处理技术。

大数据处理需要具有不同技能的各个团队成员的参与。

大数据解决方案首席架构师负责处理阶段,而大多数任务是由数据专家,数据管理员,数据工程师和数据科学家执行的。

大数据解决方案架构师简化了此阶段的端到端流程。

阶段6:数据输出和解释

在数据输出阶段,数据采用的格式可供业务用户使用。 我们可以将数据转换为可用格式,例如纯文本,图形,处理后的图像或视频文件。

输出阶段声明数据已准备就绪,可以使用,并将数据发送到下一个阶段进行存储。 在某些数据实践和业务组织中,此阶段也称为数据摄取。 例如,数据摄取过程旨在导入数据以供立即使用或将来使用,或将其保存为数据库格式。

数据提取过程可以是实时的,也可以是批处理的。 我的解决方案中常用的一些标准大数据摄取工具是Sqoop,Flume和Spark流。 这些是流行的开源工具。

活动之一是解释摄取的数据。 此活动需要分析提取的数据并从中提取信息或含义,以回答与大数据业务解决方案有关的问题。

阶段7:数据存储

一旦完成数据输出阶段,就将数据存储在设计和指定的存储单元中。 这些单元是数据平台和基础架构设计的一部分,其中考虑了所有非功能性架构方面,例如容量,可伸缩性,安全性,合规性,性能和可用性。

基础结构可以由存储区域网络(SAN),网络附加存储(NAS)或直接访问存储(DAS)格式组成。 数据和数据库管理员可以管理存储的数据,并允许访问已定义的用户组。

大数据存储可以包括基础技术,例如数据库集群,关系数据存储或扩展数据存储,例如 HDFS和HBASE是开源系统。

此外,在数据存储设计阶段必须考虑文件格式,例如文本,二进制或其他类型的专用格式,例如Sequence,Avro和Parquet。

阶段8:数据整合

在传统模型中,一旦存储了数据,它将结束数据管理过程。 但是,对于大数据,可能出于各种目的需要将存储的数据集成到不同的系统中。

在大数据解决方案流程中,数据集成是复杂且必不可少的体系结构考虑。 大数据架构师致力于架构和设计各种数据连接器的使用,以集成大数据解决方案。

根据解决方案中使用的数据源,许多连接器(例如ODBC,JDBC,Kafka,DB2,Amazon S3,Netezza,Teradata,Oracle等)可能会有用例和要求。

某些数据模型可能需要将数据湖与数据仓库或数据集市集成在一起。 大数据解决方案可能还会有应用程序集成要求。

例如,某些集成活动可能包括将大数据与仪表板,表格,网站或各种数据可视化应用程序集成。 此活动可能与下一阶段(数据分析)重叠。

阶段9:数据分析和可视化

集成的数据对于数据分析和可视化可能非常有用且富有成效。

数据分析是大数据管理流程的重要组成部分。 此阶段至关重要,因为这是从大数据解决方案获得业务价值的地方。 数据可视化是此阶段的关键功能之一。

我们可以根据解决方案的需求使用许多生产力工具进行分析和可视化。 在我的大数据解决方案中,最常用的工具是Scala,Phyton和R笔记本。 Phyton被选为最有效的工具,涉及数据分析的几乎所有方面,尤其是增强了机器学习计划的能力。

在您的业务组织中,可以有一个由首席数据科学家领导的负责数据分析的团队。 大数据解决方案架构师在此阶段的作用有限,但是他们与数据科学家紧密合作,以确保分析实践和平台与业务目标保持一致。

大数据解决方案架构师需要确保严格的体系结构来完成生命周期的各个阶段。

阶段10:数据消耗

一旦进行了数据分析,则数据被转换为可供内部或外部用户(包括企业组织的客户)使用的信息。

数据消耗需要策略,规则,法规,原则和指南的架构输入。 例如,数据消耗可以基于服务提供过程。 数据治理机构制定服务提供规定。

首席大数据解决方案架构师使用在企业组织中选择的架构框架来领导并促进这些策略,规则,原则和准则的创建。

阶段11:保留,备份和存档

我们知道,必须备份关键数据以进行保护并满足行业合规性要求。

我们需要使用已建立的数据备份策略,技术,方法和工具。 大数据解决方案架构师必须为保留,备份和存档决策识别,记录并获得批准。

大数据解决方案架构师可以将此阶段的详细设计委托给基础架构架构师,该架构师由数位数据,数据库,存储和恢复领域专家协助。

出于监管或其他业务原因,某些数据可能需要在定义的时间段内存档。 数据保留策略必须由管理机构(尤其是企业架构师)记录并批准,并由基础架构设计师和存储专家实施。

阶段12:数据销毁

在一定数量的时间之后,可能存在监管要求来销毁特定类型的数据。

销毁要求可能会因行业而异。

您需要与业务组织中的数据治理团队确认销毁要求。

结论

即使生命周期管理按时间顺序排列,但要生成大数据解决方案,某些阶段可能会略有重叠,并且可以并行完成。 您组织的专有方法可能需要一定的命令。 您需要在组织的数据实践部门中检查您的方法指数。

本文提出的生命周期仅是了解整个过程的指南。 您可以根据数据解决方案团队的结构,独特的组织数据平台,数据解决方案要求,用例以及所有者组织,其部门或整个企业生态系统的动态来自定义流程。

这是使用十二个阶段的大数据生命周期管理的快速概述。 在下一篇文章中,我计划进一步详细介绍大数据解决方案组件。

我还撰写有关物联网(IoT),人工智能,认知计算,业务架构和企业架构学科的文章。 我的一些文章发表在《创业公司》,《数据驱动的投资者》,《物联网》杂志,《意识时代》和Medium上的”几句话”出版物上。

您也可以通过以下两种方式查看我自己的出版物:反映我专业相关文章的技术卓越和反映我个人发展经验的明智生物黑客与超人类主义。

技术卓越

该出版物涵盖针对领导力,创新,建筑和技术主题的影响力很大的文章,以应对新兴……

明智的生物黑客和超人类主义

这本跨学科杂志的重点是日常的转型活动,明智的超人类主义实践……

(本文翻译自Dr Mehmet Yildiz的文章《Big Data Lifecycle Management》,参考:https://medium.com/dataseries/big-data-lifecycle-management-629dfe16b78d)

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注