对于拥有庞大数据资源的企业来说,要实现大数据分析,首先要搭建自己的大数据系统平台,而每个公司都有自己特定的业务场景,所以对大数据平台的要求也不一样。今天,我们将仅从总体的角度讨论大数据分析需要什么技术架构。
我们熟悉以BAT为首的大互联网公司,他们都有自己的大数据系统平台,但业务场景不同,比如腾讯,主要是社交业务场景;百度,主要搜索业务场景;阿里主要是电商业务场景。
在这样不同的业务场景下,需要根据实际业务需求选择合适的技术框架来构建自己的大数据架构体系。但从技术架构体系的共性来看,可以从一般的技术模块来理解,帮助我们更好地学习和掌握大数据技术架构。
大数据分析技术架构通用模块:
数据采集模块:主要负责从各种数据源采集数据,包括日志文件、网络请求、数据库、消息队列等。并将这些数据转换为文件或消息,以便向后传输。
数据转储模块:主要负责定期向分布式存储或向下游数据处理程序实时传输数据。
ETL模块:主要负责数据清理、格式和内容处理转换、数据分类排序、加载到数据仓库等。
数据仓库模块:这是整个架构的核心。数据仓库是数据有组织、集中存储的地方,负责数据的访问和管理。
元数据管理模块:主要负责记录和约束数据仓库中数据的含义和格式,控制数据生命周期和数据质量。
分析引擎模块:数据分析师之间交互最多的模块,主要负责执行各种分析语句或代码,完成各种分析任务。
作业管理和调度模块:负责分析作业管理和定时调度,包括作业的添加、删除和检查、查看修改历史、设置调度定时和执行引擎等。
资源分配调度模块:主要负责在多个作业同时运行的场景下,有效协调分配集群资源,最大化资源利用率。
以上简单介绍了大数据分析的技术架构。大数据技术的架构需要结合实际业务来考虑。在学习阶段,首先要从一般水平去掌握。在实际工作中,需要不断积累经验,才能真正扎实地掌握并融入其中。