数据仓库的数据模型

2024-05-19 00:58

1. 数据仓库的数据模型

1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：a. 维表只和事实表关联，维表之间没有关联；b. 每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；c. 以事实表为核心，维表围绕核心呈星形分布；

2. 雪花模式
雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的，虽然这种模型相比星型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能也比星型模型要低。所以一般不是很常用

雪花模式
3．星座模式
星座模式是星型模式延伸而来，星型模式是基于一张事实表的，而星座模式是基于多张事实表的，而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模式。

星座模型

数据仓库的数据模型

2. 数据仓库建模概念

 总线矩阵是一个二维表格，每一行对应一个 业务线 ，每一列对应一个 维度 ，每一个交叉点对应了业务和维度的联系
   我们在业务分析时使用雪花模型，最终存储到数据仓库中的是星型模型。
   事实表由度量值和维度值组成，度量值反应了该业务过程涉及的数字指标，维度值反应了该业务过程的维度信息。
   原子粒度，聚集事实表。
   一定要从原子粒度开始设计。
   存储外键关联维度
   退化维度（DD, Degradation dimension）
   Operational Data Store，数据运营层。从其他业务系统抽取的数据，直接存储。
   Data Warehouse，数据仓库层，内部又划分为3层。
   维度表
   服务特定的应用，复用性不强，存储在响应速度较快的存储引擎。例如报表数据。

3. 如何深入浅出理解数据仓库建模？

作者 | 傅一平 
来源 | 与数据同行 
今天跟着我来学学数据仓库的基础知识，希望你结合案例可以把它吃透。 
一、数据仓库建模的意义 如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。 
数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话：“烂程序员关心的是代码，好程序员关心的是数据结构和它们之间的关系”，最能够说明数据模型的重要性。 
只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。 
性能：帮助我们快速查询所需要的数据，减少数据的I/O吞吐，提高使用数据的效率，如宽表。 
成本：极大地减少不必要的数据冗余，也能实现计算结果复用，极大地降低存储和计算成本。 
效率：在业务或系统发生变化时，可以保持稳定或很容易扩展，提高数据稳定性和连续性。 
质量：良好的数据模型能改善数据统计口径的不一致性，减少数据计算错误的可能性。数据模型能够促进业务与技术进行有效沟通，形成对主要业务定义和术语的统一认识，具有跨部门、中性的特征，可以表达和涵盖所有的业务。 
大数据系统需要数据模型方法来帮助更好地组织和存储数据，以便在性能、成本、效率和质量之间取得最佳平衡！ 
下图是个示例，通过统一数据模型，屏蔽数据源变化对业务的影响，保证业务的稳定，表述了数据仓库模型的一种价值： 
 二、数据仓库分层的设计 为了实现以上的目的，数据仓库一般要进行分层的设计，其能带来五大好处： 
清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。 
数据血缘追踪：能够快速准确地定位到问题，并清楚它的危害范围。 
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。 
把复杂问题简单化：将复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。当数据出现问题之后，不用修复所有的数据，只需要从有问题的步骤开始修复。 
屏蔽原始数据的异常：不必改一次业务就需要重新接入数据。 
以下是我们的一种分层设计方法，数据缓冲区（ODS）的数据结构与源系统完全一致。基础数据模型(DWD)和融合数据模型（DWI与DWA）是大数据平台重点建设的数据模型。应用层模型由各应用按需自行建设，其中基础数据模型一般采用ER模型，融合数据模型采用维度建模思路。 
 三、两种经典的数据仓库建模方法 前面的分层设计中你会发现有两种设计方法，关系建模和维度建模，下面分别简单介绍其特点和适用场景。 
1、维度建模 
（1）定义 
维度模型是数据仓库领域另一位大师Ralph Kimball 所倡导的。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能，更直接面向业务。 
典型的代表是我们比较熟知的星形模型： 
  维度退化 
星型模型由一个事实表和一组维表组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理，将多个维度集合到一个事实表，形成一个宽表。 
这也是我们在使用hive时，经常会看到一些大宽表的原因，大宽表一般都是事实表，包含了维度关联的主键和一些度量信息，而维度表则是事实表里面维度的具体信息，使用时候一般通过join来组合数据，相对来说对OLAP的分析比较方便。 
（2）建模方法 
通常需要选择某个业务过程，然后围绕该过程建立模型，其一般采用自底向上的方法，从明确关键业务过程开始，再到明确粒度，再到明确维度，最后明确事实，非常简单易懂。 
 以下是阿里的OneData的建模工作流，可以参考。 
 （3）优缺点 
优点：技术要求不高，快速上手，敏捷迭代，快速交付；更快速完成分析需求，较好的大规模复杂查询的响应性能 
缺点：维度表的冗余会较多，视野狭窄 
2、关系建模 
（1）定义 
是数据仓库之父Inmon推崇的、从全企业的高度设计一个3NF模型的方法，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF，站在企业角度面向主题的抽象，而不是针对某个具体业务流程的实体对象关系抽象。 
它更多是面向数据的整合和一致性治理，正如Inmon所希望达到的“single version of the truth”。 
 当有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上时，其图解就像多个雪花连接在一起，故称雪花模型。 
雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化，原有的各维表可能被扩展为小的事实表，形成一些局部的 "层次 " 区域，这些被分解的表都连接到主维度表而不是事实表。 
雪花模型更加符合数据库范式，减少数据冗余，但是在分析数据的时候，操作比较复杂，需要join的表比较多所以其性能并不一定比星型模型高。 
（2）建模方法 
关系建模常常需要全局考虑，要对上游业务系统的进行信息调研，以做到对其业务和数据的基本了解，要做到主题划分，让模型有清晰合理的实体关系体系，以下是方法的示意： 
 以下是中国移动的概念模型的一种示例，如果没有自顶向下的视野，基本是总结不出来的： 
 （3）优缺点 
优点：规范性较好，冗余小，数据集成和数据一致性方面得到重视，比如运营商可以参考国际电信运营业务流程规范（ETOM），有所谓的最佳实践。 
缺点：需要全面了解企业业务、数据和关系；实施周期非常长，成本昂贵；对建模人员的能力要求也非常高，容易烂尾。 
3、建模方法比较 
一般来讲，维度模型简单直观，适合业务模式快速变化的行业，关系模型实现复杂，适合业务模式比较成熟的行业，阿里原来用关系建模，现在基本都是维度建模的方式了。 
运营商以前都是关系建模，现在其实边界越来越模糊，很多大数据业务变化很快，采用维度建模也比较方便，不需要顶层设计。 
 四、企业建模的三点经验 维度建模就不说了，只要能理解业务过程和其中涉及的相关数据、维度就可以，但自顶向下的关系建模难度很大，以下是关系建模的三个建设要点。 
1、业务的理解：找到企业内最理解业务和源系统的人，梳理出现状，比如运营商就要深刻理解三域（O/B/M），概念建模的挑战就很大，现在做到B域的概念建模已经很不容易。 
 2、数据及关系的理解：各个域的系统建设的时候没有统一文档和规范，要梳理出逻辑模型不容易，比如运营商的事件主题下的逻辑模型就非常复杂。 
 3、标准化的推进：数据仓库建模的任何实体都需要标准化命名，否则未来的管理成本巨大，也是后续数据有效治理的基础，以下是我们的一个命名规范示例： 
 五、推荐三本书  总而言之，你可以把我的文章当成一个指引，具体还是要结合企业的实际去推进，但做事的时候要不忘建模的初心：即数据如何摆布才能提高支撑应用的效率，手段上不用区分什么先进不先进，好用就成。

如何深入浅出理解数据仓库建模？

4. 数据仓库的数据模型

有别于一般联机交易处理(OLTP)系统，数据模型设计是一个数据仓库设计的地基，当前两大主流理论分别为采用正规方式(normalized approach)或多维方式(dimensional approach)进行数据模型设计。 数据模型可以分为逻辑与实体数据模型。逻辑数据模型陈述业务相关数据的关系，基本上是一种与数据库无关的结构设计，通常均会采用正规方式设计，主要精神是从企业业务领域的角度及高度订出subject area model，再逐步向下深入到entities、attributes，在设计时不会考虑未来采用的数据库管理系统，也不需考虑分析性能问题。而实体数据模型则与数据库管理系统有关，是建置在该系统上的数据架构，故设计时需考虑数据类型(data type)、空间及性能相关的议题。 实体数据模型设计，则较多有采用正规方式或多维方式的讨论，但从实务上来说，不执著于理论，能与业务需要有最好的搭配，才是企业在建置数据仓库时的正确考量。数据仓库的建制不仅是资讯工具技术面的运用，在规划和执行方面更需对产业知识、行销管理、市场定位、策略规划等相关业务有深入的了解，才能真正发挥数据仓库以及后续分析工具的价值，提升组织竞争力。

5. 数据仓库数据建模的几种思路

数据仓库数据建模的几种思路主要分为一下几种
1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：a. 维表只和事实表关联，维表之间没有关联；b. 每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；c. 以事实表为核心，维表围绕核心呈星形分布；

2. 雪花模式
雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的，虽然这种模型相比星型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能也比星型模型要低。所以一般不是很常用

雪花模式
3．星座模式
星座模式是星型模式延伸而来，星型模式是基于一张事实表的，而星座模式是基于多张事实表的，而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模式。

星座模型

数据仓库数据建模的几种思路

6. 数据仓库数据建模的几种思路

数据仓库接典型的两种数据仓库建模的理论是维度建模和基于主题域的实体关系建模，这两种方式分别以Kimball和Immon两位大师为代表。维度建模以数据分析需求为驱动，倡导总线架构：一致的事实和一致的维度，这种数据模型易于用户理解和数据分析操作。基于主题域的实体关系建模以源系统数据为驱动，整合企业的所有数据，站在企业级的高度对数据进行抽象，整合，采用3NF的实体关系理论建模，这种数据建模方式以更为抽象的方式尝试建立一个相对稳定的数据模型，并能描述企业级的数据关系。在工业界往往把两种方式结合起来运用数据仓库的不同数据层次结构中。
我们上周主要是针对采用基于主题域的实体关系建模中数据整合的方式进行较为深入的讨论，讨论了以下三种思路：
以属性聚集的方式同一主题域中不同实体的属性。比如对于会员、公司、客户等等实体对象我们都有地址属性信息、名称标识属性信息等等，这种思路就是把属性内聚性高的字段整合在一起，并把不同的属性打上类型标识以树表的形式存放。它的优点是：第一，模型稳定性好，外围系统变化了字段，只需要添加不同的类型，不需要进行表结构的变更；第二，减少大量冗余记历史数据。它的缺点是：第一，丢失了很多实体的属性标识信息，我们从模型上将看不到一个会员究竟有哪些地址属性，只能通过查询类型代码才能获取这些信息；第二，它极度的膨胀数据表的记录数，因为它采用竖表的形式存放；第三，应用起来很难，效率是一个大问题，因为我们往往要使用一个实体的多个字段，就会有很多join操作和竖转横的操作。第四：属性聚集也是一件比较难操作的过程，应为这是一个抽象的过程，对建模人员的业务背景知识和抽象能力都提出了很高的要求；第五：虽然减少了冗余的记历史数据，但是记历史的操作也较为复杂。
采用面向对象建模的方式，抽象不同实体的共同属性，然后再一步步采用继承、组合等面向对象的思想具体化实体。他的优点是模型模型概念比较清晰，缺点也是模型相对不是很稳定，整合后的数据的后续应该也面临重新组合的问题。
贴源的建模方式：
采用基本保持源系统的方式进行建模，重点放在数据的标准化，一致化，和数据业务意义的梳理。这种做法和我们目前数据仓库的做法比较类似。它具有实施比较容易，快速实现，前台可以直接使用数据；缺点是整合度不高，模型不稳定。
模型终究是为数据分析应用服务的，具体采用什么方式建模需要根据实际业务特点和源系统的特点决定。阿里巴巴的源系统具有变化快，数据分析应该变化快的特点，响应速度也要快的特点，而且我们要求不同系统之间整合的需求并不是很大，往往深度的数据整合带来的是应用上的不方便。因此，我个人觉得采用贴源的方式是当前更优的方案。

7. 数据仓库数据建模的几种思路

数据仓库接典型的两种数据仓库建模的理论是维度建模和基于主题域的实体关系建模，这两种方式分别以Kimball和Immon两位大师为代表。维度建模以数据分析需求为驱动，倡导总线架构：一致的事实和一致的维度，这种数据模型易于用户理解和数据分析操作。基于主题域的实体关系建模以源系统数据为驱动，整合企业的所有数据，站在企业级的高度对数据进行抽象，整合，采用3NF的实体关系理论建模，这种数据建模方式以更为抽象的方式尝试建立一个相对稳定的数据模型，并能描述企业级的数据关系。在工业界往往把两种方式结合起来运用数据仓库的不同数据层次结构中。
我们上周主要是针对采用基于主题域的实体关系建模中数据整合的方式进行较为深入的讨论，讨论了以下三种思路：
以属性聚集的方式同一主题域中不同实体的属性。比如对于会员、公司、客户等等实体对象我们都有地址属性信息、名称标识属性信息等等，这种思路就是把属性内聚性高的字段整合在一起，并把不同的属性打上类型标识以树表的形式存放。它的优点是：第一，模型稳定性好，外围系统变化了字段，只需要添加不同的类型，不需要进行表结构的变更；第二，减少大量冗余记历史数据。它的缺点是：第一，丢失了很多实体的属性标识信息，我们从模型上将看不到一个会员究竟有哪些地址属性，只能通过查询类型代码才能获取这些信息；第二，它极度的膨胀数据表的记录数，因为它采用竖表的形式存放；第三，应用起来很难，效率是一个大问题，因为我们往往要使用一个实体的多个字段，就会有很多join操作和竖转横的操作。第四：属性聚集也是一件比较难操作的过程，应为这是一个抽象的过程，对建模人员的业务背景知识和抽象能力都提出了很高的要求；第五：虽然减少了冗余的记历史数据，但是记历史的操作也较为复杂。
采用面向对象建模的方式，抽象不同实体的共同属性，然后再一步步采用继承、组合等面向对象的思想具体化实体。他的优点是模型模型概念比较清晰，缺点也是模型相对不是很稳定，整合后的数据的后续应该也面临重新组合的问题。
贴源的建模方式：
采用基本保持源系统的方式进行建模，重点放在数据的标准化，一致化，和数据业务意义的梳理。这种做法和我们目前数据仓库的做法比较类似。它具有实施比较容易，快速实现，前台可以直接使用数据；缺点是整合度不高，模型不稳定。
模型终究是为数据分析应用服务的，具体采用什么方式建模需要根据实际业务特点和源系统的特点决定。阿里巴巴的源系统具有变化快，数据分析应该变化快的特点，响应速度也要快的特点，而且我们要求不同系统之间整合的需求并不是很大，往往深度的数据整合带来的是应用上的不方便。因此，我个人觉得采用贴源的方式是当前更优的方案。

数据仓库数据建模的几种思路

8. 数据仓库的模型有哪些？

1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：a. 维表只和事实表关联，维表之间没有关联；b. 每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；c. 以事实表为核心，维表围绕核心呈星形分布；

2. 雪花模式
雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的，虽然这种模型相比星型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能也比星型模型要低。所以一般不是很常用

雪花模式
3．星座模式
星座模式是星型模式延伸而来，星型模式是基于一张事实表的，而星座模式是基于多张事实表的，而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模式。

星座模型