大数据建模常用方法有哪些,数据仓库建模

谈笑间学会数仓——大数据建模过程首先,让我们了解大数据建模需要遵循什么样的原则。 首先列举一下

建模原则高凝聚和低编辑

将业务相近或相关、粒度相同的数据设计为逻辑或物理模型。 将大概率同时访问的数据汇总起来,将低概率同时访问的数据分开保存。

分离核心模型和扩展模型

构建核心模型和扩展模型体系。 核心模型中的宇段支持常用核心业务,扩展模型中的字段支持个性化或少量应用需求,避免扩展模型的宇段过度侵入核心模型,破坏核心模型结构的简洁性和可维护性。

公共处理的逻辑下沉与单一

越是底层的公共处理逻辑,越应该在数据调度依赖的基础上进行封装和实现,不能将公共处理逻辑暴露在APP应用层中进行实现,也不能同时存在多个公共逻辑。

成本与性能之间的平衡

适当的数据冗馀可以换取查询和刷新的性能,而过度的冗馀和数据复制是不可取的。

可回滚数据

不改变处理逻辑、不修改代码重新运行任务不会改变结果

一致性

字段的命名和定义必须匹配

名字清晰可以理解

表的命名必须明确、一致,表名必须由使用方便的人理解

声明理解了原则后,接下来就是建模了。 那么,具体步骤怎么办呢?

以建模流程和分步分析的分割,例如电商订购的业务流程为例,每个用户或会员提交一个购物订单,对应于业务系统基础的数据库,即一个/多个记录。

分析从几个方面如下进行

业务流程是什么? 粒度是什么? 维度是什么? 事实/度量?

业务流程:客户订单

粒度:每次交易的订单(分割为个别商品) ) ) ) )。

维度:地区、渠道、年龄、性别、商品类别等(可分析角度) ) ) ) ) ) ) ) ) ) )。

事实/度量:订单金额、数量等(用于分析的数据) ) ) ) ) ) ) ) ) ) ) )。

建模步骤1、整理业务需求考虑数据实现

在开始建模之前,首先要了解具体的业务需求,然后想做什么? 我需要用哪个数据做? 这意味着基础业务系统、数据源和数据表的实际情况。 通过与用户交流、查看现有模型数据的情况,明确了解其基于关键指标、竞争性业务问题,确定需求和目标,并根据实际情况确定建议的可行性和数据的可行性(大多数企业都重视数据安全)

2、选择业务流程

业务流程是组织完成的操作型活动。 业务流程时间创建或检索性能度量,并将其转换为事实表中的事实。 大多数事实表都是某个业务流程的结果。 过程的选择非常重要。 因为流程定义了特定的设计目标和粒度、维度、事实的定义。

3、声明粒度

声明粒度是维度设计的重要步骤。 粒度用于确定事实表中的行表示什么。 每个候选维或数值必须与定义的粒度匹配,因此必须在选择维或数值之前声明粒度。 从特定业务流程检索数据时,原子粒度是最低级别的粒度。 由于原子级粒度数据可以经受意外的用户查询,因此强烈建议从关注原子级粒度数据开始设计。

4、确认维度

维度提供了与某个业务流程的事件相关联的’谁、什么、哪里、何时、为什么、如何’等背景。 维表包含分析APP应用程序所需的说明性属性,用于筛选和分类事实。 通过仔细了解事实表的粒度,可以区分所有可能存在的维。

5、事实的确认

事实上,来自业务流程的事件的度量基本上由数据值表示。 事实表对应于物理上可观察的事件,因为事实表行与以事实表粒度描述的测量事件之间存在一对一关系。 事实表内,所有事实只允许与声明的粒度一致。

6、配置方式

选择维模型的着陆方法。 您既可以选择星型模型、放置在关系数据库中的事实表,也可以选择通过主键关联的维表。 也可以选择多维模型并在多维数据库中着陆。

建模涉及名词

数据域是业务流程或维的抽象集合,用于业务分析。 通过划分数据域,可以在新业务进入时不受影响地将其包括在现有数据域中,或扩展新的数据域,同时覆盖当前的所有业务需求。

业务流程是指企业的业务活动,以下列表、付款、退款均为业务流程: 请注意,业务流程是不可分割的行为事件。 通俗地说,业务流程是企业活动中的事件。

持续时间用于明确数据统计的时间范围或时间点,如过去30天、自然周或当天。

修饰型是对修饰语的抽象划分,取决于某个业务域。

修饰语是指统计维以外指标的业务场景限定抽象。 修饰语属于一种修饰型。

测量/原子指标原子指标和测量含义相同,基于某个业务事件行为的测量是业务定义中不可分割的指标,具有支付金额等明确业务含义的名词。

维是反映一种业务属性的度量环境,这些属性的集合构成一个维,也称为实体对象。 维属于包含地理维、国家、地区、省和城市级内容的数据域,以及包含时间维、年、季度、月、周和日级内容的数据域。

维属性维属性属于地理维中的维,如国家名称、国家ID和省名称。

派生指标=一个原子指标多个修饰语(可选)期间。 可以理解

对原子指标业务统计范围的圈定。

小结

事实表和维度表设计,请参考下面链接,在此就不多bb了。

维度表:https://blog.csdn.net/MrZhangBaby/article/details/108801873

事实表:

https://blog.csdn.net/MrZhangBaby/article/details/108096179

https://blog.csdn.net/MrZhangBaby/article/details/108342505

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注