返回
基础
分类

必赢手机登录网址记下来做个备忘,方体是数据

日期: 2020-04-22 07:27 浏览次数 : 147

 
 
 
 概述:
1. 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法

数据仓库之二 数据仓库设计--Kimball方法

本文介绍的是数据仓库设计的Kimball方法,即多维模型;关系模型,即Inmon方法参见(四)

今年的项目涉及到BI的知识点,读了《商业智能深入浅出》,这本书是基于IBM的产品做的,基础知识部分讲的非常成体系。记下来做个备忘:

  1. 需求不明确
     数据仓库系统的原始需求不明确
     需求不断变化与增加
     开发者最初不能确切了解到用户明确详细的需求,不能准确的预见未来的需求
     用户所能提供的无非是需求的大的方向以及部分需求
    ==>采用原型法来进行数据仓库的开发是比较合适的 
  2. 需求不明确
    不等于传统意义上的原型法,即数据仓库的设计是数据驱动的,即在原有的数据库系统上开发,有效的使用原有系统
    数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这是区别于系统生命周期法的主要特点
  3. 设计步骤:
     概念模型设计;
     技术准备工作;
     逻辑模型设计;
     物理模型设计;
     数据仓库生成;
     数据仓库运行与维护。
    第一步:概念模型设计
            进行概念模型设计所要完成的工作是:
    <1>界定系统边界
    <2>确定主要的主题域及其内容
    成果:在原有的数据库的基础上建立了一个较为稳固的概念模型。
     数据驱动:
    数据仓库中的数据即是对原有数据库系统中的数据进行集成和重组而形成的数据集合,
    =>数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。
    A、 一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识
    B、 另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
    注:概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。
  4. 界定系统的边界
        数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:
     要做的决策类型有哪些?
     决策者感兴趣的是什么问题?
     这些问题需要什么样的信息?
     要得到这些信息需要包含原有数据库系统的哪些部分的数据?
    =>划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。
  5. 确定主要的主题域
       要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容包括:
     主题域的公共码键;
     主题域之间的联系;
     充分代表主题的属性组。
    第二步:技术准备工作
    该步包括:技术评估,技术环境准备。
    成果:
    技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。
  6. 技术评估
        进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:
     管理大数据量数据的能力;
     进行灵活数据存取的能力;
     根据数据模型重组数据的能力;
     透明的数据发送和接收能力;
     周期性成批装载数据的能力;
     可设定完成时间的作业管理能力。
  7. 技术环境准备
        一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;主要考虑相关的问题:
     预期在数据仓库上分析处理的数据量有多大?
     如何减少或减轻竞争性存取程序的冲突?
     数据仓库的数据量有多大?
     进出数据仓库的数据通信量有多大等。
            根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有:
     直接存取设备(DASD);
     网络;
     管理直接存取设备(DASD)的操作系统;
     进出数据仓库的界面(主要是数据查询和分析工具);
            管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。
    第三步:逻辑模型设计
        在这一步里进行的工作主要有:
     分析主题域,确定当前要装载的主题;
     确定粒度层次划分;
     确定数据分割策略;
     关系模式定义;
     记录系统定义
    成果:对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:
     适当的粒度划分;
     合理的数据分割策略;
     适当的表划分;
     定义合适的数据来源等。
  8. 分析主题域
       逐步求精的过程,一次一个主题或多个主题逐步完成
    A、 对概念模型设计步骤中确定的几个基本主题域进行分析,并选择首先要实施的主题域
    注:选择第一个主题域所要考虑的是它要足够大,使得该主题域能建设成为一个可应用的系统;还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。
  9. 粒度层次划分
        数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。
  10. 确定数据分割策略
    在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。
  11. 关系模式定义
        数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。
    第四步: 物理模型设计
        这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。
        确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:
     要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。
     了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。
     了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。
  12. 确定数据的存储结构
    一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。
  13. 确定索引策略
        数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。
    在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。
  14. 确定数据存放位置
        我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
    数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。
  15. 确定存储分配
        许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。
    第五步:数据仓库的生成
        在这一步里所要做的工作是接口编程,数据装入。
    这一步工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓库的应用,即DSS应用。
  16. 设计接口
        将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序就可以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作,这一接口还应具有以下的功能:
     从面向应用和操作的环境生成完整的数据;
     数据的基于时间的转换;
     数据的凝聚;
     对现有记录系统的有效扫描,以便以后进行追加。
        当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。从操作型环境到数据仓库环境的数据接口编程的过程和一般的编程过程并无区别,它也包括伪码开发、编码、编译、检错、测试等步骤。
    在接口编程中,要注意:
     保持高效性,这也是一般的编程所要求的;
     要保存完整的文档记录;
     要灵活,易于改动;
     要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换与集成。
  17. 数据装入
    在这一步里所进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:
     确定数据装入的次序;
     清除无效或错误数据;
    必赢手机登录网址 , 数据“老化” ;
     数据粒度管理;
     数据刷新等。
    最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些问题并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。
    第六步:数据仓库的使用和维护
        在这一步中所要做的工作有建立DSS应用,即使用数据仓库理解需求,调整和完善系统,维护数据仓库。
        建立企业的体系化环境,不仅包括建立起操作型和分析型的数据环境,还应包括在这一数据环境中建立起企业的各种应用。数据仓库装入数据之后,下一步工作是:一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起DSS应用;另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一步完善系统,并管理数据仓库的一些日常活动,如刷新数据仓库的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等。我们把这一步骤称为数据仓库的使用与维护。
  18. 建立DSS应用
        使用数据仓库,即开发DSS应用,与在操作型环境中的应用开发有着本质区别,开发DSS应用不同于联机事务处理应用开发的显著特点在于:
     DSS应用开发是从数据出发的;
     DSS应用的需求不能在开发初期明确了解;
     DSS应用开发是一个不断循环的过程,是启发式的开发。
    DSS应用主要可分为两类:例行分析处理和启发式分析处理。例行分析处理是指那些重复进行的分析处理,它通常是属于部门级的应用,如部门统计分析,报表分析等等;而个人级的分析应用经常是随机性很大的,企业经营者受到某种信息启发而进行的一些即席的分析处理,所以我们称之为启发式的分析处理。
        DSS应用开发的大致步骤如下:
        步骤l——确定所需的数据。为满足DSS应用的要求,我们必须从数据仓库中确定一个可能用到的数据范围。这是一个试探的过程。
        步骤2——编程抽取数据。根据上面得到的数据范围,编写一个抽取程序来获得这些数据。为适应分析需求多变的特点,要求所编写的抽取程序应该通用,易于修改。
        步骤3——合并数据。如果有多个数据抽取源,要将抽取来的数据进行合并、提炼,使数据符合分析处理的要求。
        步骤4——分析数据。在上步准备好的数据基础上进行分析处理,并看所得的结果是否满足了原始的要求,如果不能满足,则返回步骤1,开始新的一次循环,否则就准备最终分析结果报告。
        步骤5——回答问题。生成最终分析结果报告。—般情况下,最终的分析结果报告是在许多次的循环后得到的,因为一次分析处理很少是在一次循环后就完成的。
        步骤6——例行化、一次分析处理的最后、我们要决定是否将在上面已经建立的分析处理例行化。如果建立的分析处理是重复进行的部门级的DSS应用,那么最好是将它例行化,这样在进行下一次同样的分析处理时,不必再重复上述六步的循环过程。而且,不断地积累这种例行处理,形成一个集合,我们就可以通过组合这些已有的处理来生成新的一个较大的复杂处理,或完成一个复杂处理的一部分。
  19. 理解需求,改善和完善系统,维护数据仓库
        数据仓库的开发是逐步完善的原型法的开发方法,它要求:要尽快地让系统运行起来,尽早产生效益;要在系统运行或使用中,不断地理解需求,改善系统;不断地考虑新的需求,完善系统。
    维护数据仓库的工作主要是管理日常数据装入的工作,包括刷新数据仓库的当前详细数据,将过时的数据转化成历史数据.清除不再使用的数据,管理元数据,等等;另外,如何利用接口定期从操作型环境向数据仓库追加数据,确定数据仓库的数据刷新频率,等等。

多维数据模型

-方体:数据汇总。方体是数据,方体的维度即各个维表,方体的值即事实表的度量;星型图则是事实表与维表的组织结构,与数据无关。
原语:

  • 立方体定义(事实表):
    define cube <cube_name> [<dimension_list>]:<measure_list>

  • 维定义(维表):
    define dimension <dimension_name> as (<attribute_or_subdimension_list>)

  1. BI简介
      1.1 实施方案
        1)项目规划:
        2)系统设计与实现:
        3)系统调优
        4)系统运行维护

      1.2 实施步骤
        1)定义需求:

度量

根据所用的聚集函数分为三类:

  • 分布的--一个聚集函数是分布的,如果它能用如下分布方式进行计算:设数据划分为n个集合,将函数用于每个划分,得到n个聚集值;再将函数用于前述n个聚集值得到的结果与将函数用于整个数据集(不划分)得到的结果一样,则该函数可以用分布方式计算。一个度量是分布的,如果它可以用分布聚集函数得到。如count(),sum(),min(),max()都是分布聚集函数。

  • 代数的--如avg(),min_N(),max_N(),standard_deviation()都是代数聚集函数。

  • 整体的--如median(),mode(),rank()都是。

      1.1)特点:从不同的维度去分析主题,利用报表去阐述

多维数据库模式

星型模式;雪花模式;事实星座模式(多个事实表共享维表)

      1.2)功能需求:各业务专题分析、关键性指标和查询监控、报表查询、高级分析和指标监控
    2)数据仓库模型建设:
      概念模型 -> 逻辑模型 -> 物理模型

数据仓库设计

典型的数据仓库设计过程
-选取待建模的商务处理, 例如, 订单, 发票, 库存等.
-选取商务处理的粒度, 例如,单个事务、一天的快照等
-选取用于每个事实表记录的, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等
-选取将安放在事实表中的度量. 典型的度量是可加的数值量, 如dollars_sold和units_sold

    3)数据清洗、抽取、转换、加载

数据仓库设计步骤

  1. 概念模型设计;
    概念模型最常用的是E-R法(实体-联系法,Inmon支持这种方法),使用E-R图作为描述工具。另一种方法是Kimball支持的多维模型。

此步骤主要完成的工作是:(1)界定系统边界;(2)确定主要的主题域及其内容。

例如,商场的边界可以界定为包含销售子系统、采购子系统、库存子系统在内的集合。在此基础上,确定三个基本主题:顾客、供应商、商品。

  1. 技术准备工作;
    本阶段工作:技术评估,技术环境准备。

成果:技术评估报告,软硬件配置方案,系统(软硬件)总体设计方案。

  1. 逻辑模型设计;
    数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题所对应的关系表的关系模式的定义。

本阶段主要工作:(1)粒度层次划分;(2)数据分割策略;(3)记录系统定义;(4)关系模式定义。

  1. 物理模型设计;
    主要工作:(1)确定存储结构;(2)确定索引结构;(3)确定存放位置;(4)确定存储分配。

  2. 数据仓库生成;
    主要工作:(1)设计接口;(2)数据装入。

接口是指将操作性环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。

  1. 数据仓库运行与维护
    包括:(1)建立DSS应用;(2)理解需求,改善和完善系统,维护数据仓库。

DSS应用开发的步骤:确定所需的数据、编程抽取数据、合并数据、分析数据、回答问题、例行化。

      抽取:定义不同数据源的抽取流程,如每天6点等;

数据仓库环境--Inmon

      清洗:对业务源数据的清洗,检查数据源质量是否达到数据仓库要求

数据仓库环境

数据仓库是一个面向主题的集成的非易失的随时间变化的用来支持管理人员决策的数据集合。数据仓库包含粒度化的企业数据。在数据仓库的所有特性中,集成是最重要的。
数据仓库中数据的主要设计问题:粒度问题分区

      转换:ETL的核心部分,聚合及转换

分区

数据分区的标准完全由开发人员来决定。在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。可采用的分区标准包括时间、业务范围、地理位置、组织单位等等。

      加载:将数据加载到目标表中
    4)建立分析报表
  1.3 组织架构
    项目经理

数据仓库中的数据组织

简单堆积结构
轮转综合数据存储
简单直接文件
连续文件
数据仓库的关键字总是复合关键字,因为:日期几乎总是关键字的一部分;分区总是关键字的一部分。

    需求分析团队:需求调研、需求分析

数据仓库环境主要构件

  • 操作型源系统
  • 数据聚集环节:ETL
  • 数据展示:数据应以维度形式进行展示、存储和访问;数据中心中必须包括详细的原子数据
  • 数据存取工具:所有数据存取工具访问的是数据仓库展示环节中的数据。

    设计团队:架构设计、模型设计、ETL设计、报表设计

设计数据仓库--Inmon方法(即关系模型

    开发团队:ETL开发、报表开发

从操作型数据开始

    测试团队

数据转换难点

  • 数据缺乏集成--格式编码不一致

  • 访问现有系统数据的效率
    从操作型环境到数据仓库有三种装载工作要做:

装载档案数据。
装载操作型系统中的现有数据。
将上次DW刷新以来操作型环境中发生的变化(更新)从操作型环境中装载到数据仓库中。
前两者都只需装载一次,难度不大。数据仓库刷新时,可采用以下五种技术减少扫描的操作型数据量:

扫描在操作型环境中被打上时戳的数据。
扫描增量文件。
对事务处理产生的日志文件或审计文件进行扫描。日志文件与增量文件基本相同,但日志文件不如增量文件专用于此功能。
修改应用程序代码。不常用。
将一个“前”映像文件和一个“后”印象文件进行比较。这种方法很麻烦、复杂,耗费资源,因此是下下策。

  • 时基变化

  • 数据压缩

    部署实施团队*

数据仓库与数据模型

数据仓库的数据模型

数据建模分为三个层次:高层建模(称为实体关系图,或ERD),中间层建模(称为数据项集或DIS),底层建模(称为物理模型)。

        1.2)日志文件,记录对数据库的修改,用以备份恢复;

数据模型与迭代式开发

数据模型在迭代开发期间所起的作用:每一次迭代开发都基于同一个数据模型,各次开发工作的结果将产生一个内聚的、高度和谐的整体。

        1.3)控制文件,二进制文件,描述数据库的结构;
        1.4)参数文件
      2)逻辑结构
        2.1)块 -> 区段 -> 段 -> 表空间
        .2)数据库由若干个表空间定义而成

相关物理设计技术

数据模型的输出是大量的表,每个表包含关键字和属性,其中每个表只包含少量数据。通常将这些表物理合并,使得I/O代价最小化。需要物理设计人员解决的是采用什么样的策略来合并这些表。
另一种能够节省I/O的设计技术是创建数据数组
引入冗余数据
当访问率相差悬殊时,对数据做进一步的分离
引入导出数据(即已计算出的)以减少所需I/O。
最具创新性的技术之一是创造性索引创造性概要文件
参照完整性管理。

    2.1.2)数据库实例
      Oracle 实例由内存和一系列后台进程组成
      后台进程
      内存
      SGA
      共享池:共享SQL区

元数据

元数据,即描述数据的数据,与指向数据仓库内容的索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置。

      数据缓存池:从数据文件读取上来的缓存
      日志缓存池
      UGA 服务器进程和后台进程的基本信息
      PGA 会话的基本信息

数据周期

  2.2 Oracle优化理论
    2.2.1 外部优化原理
    CPU、内存
    2.2.2 SQL优化原理

数据转换

早期,程序员需要自己编写程序实现集成,后来出现了数据集成自动化技术,即ETL软件(抽取、转换、装载)。

      1)避免全表搜索、加索引、
      2)优化索引

星型连接

在数据仓库技术中经常提到的一种不同于数据库设计方法是多维方法。包括星型连接、事实表和维。

      2.1)位图索引:将对应字段的值,映射成一个位图,如1001001,create bitmap index index_name on 表名(字段);
      2.2)基于函数索引:create index emp_upper_idx on emp(upper(ename)); 只扫描小写部分数据;
    2.2.3 SQL使用规范
    2.2.4 索引使用规范
    2.2.5 临时表使用规范
    2.2.6 创建索引原则
    2.2.7 代码程序中的优化

需求和Zachman框架

数据仓库不是由处理需求建造成的,而是根据企业需求而设计的。聚集和组织企业需求的最好的办法之一是Zachman框架。Zachman框架一旦建立,企业的信息需求就可以从中提取出来。根据提取的需求,就可以建立企业数据模型。然后根据企业数据模型,就能以迭代的方式建立数据仓库

Zachman框架

  2.3 数据库建模理论
    2.3.1 概念模型设计
      主题域 -> 主题 -> 主题或实体
    2.3.2 逻辑模型设计

数据仓库的概念建模与概念设计-Golfarelli

数据仓库设计包括3个主要阶段:概念设计、逻辑设计、物理设计,其中,概念模型即为星型图或雪花模型;而逻辑设计阶段则是对星型图的细化。。3种不同的设计场景:数据驱动的场景、需求驱动的场景、混合场景。在数据集市设计中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。

      对概念模型的进一步分解和细化,包括实体、属性以及实体间的关系
    2.3.3 物理模型设计
      表、列、索引

概念建模

DFM维度事实模型

  1. 商业智能 数据仓库 的基础知识
      3.1 数据仓库

      3.2 数据仓库的特点

数据仓库的概念设计

    1)面向主题:如客户主题(客户基本信息、客户信用信息)、产品主题、财务主题

Oracle Warehouse Builder(OWB)创建数据仓库

Oracle的OWB是目前最好的三大ETL产品之一。OWB不但可以可以完成数据的抽取、转换和加载,还能帮助用户在Oracle数据库中创建ROLAP(Relational Online Analysis Process)和MOLAP(Multidimensional Online Analysis Process)数据仓库对象,数据质量管理,商务智能定义等。

    2)集成性:包括数据的集成(多个同类表合一)和编码的集成(不同的编码定义统一)

OWB数据处理流程

(1)进入“Design Center”

新建“控制中心(Control Center)”
新建“项目(Project)”
定义“数据源模块(Module)”
定义“目标数据模块(Module)”
设计“映射(Mapping)”
设计“进程流(Process Flow)”确定映射运行的先后顺序
设计“计划(Schedule)”
“配置(Configure)”映射和工作流,添加不同映射和工作流的“计划”,部署后会形成“工作(Job)”
(2)在Design Center中创建Control Center,并且将其配置为缺省的Control Center

(3)打开“控制中心管理器(Control Center Manager)”

确定数据源和目标数据库的实际物理配置,“注册(Register)”“位置(Location)”为部署和执行打下基础
“部署(Deploy)”某个项目、位置、模块下所有对象,这些操作完成了如下工作:DDL、DML、Control File、Workflow代码、Job生成代码或者ABAP等代码在目标用户所在数据库上的生成,DDL语句的部署同时完成了对象在目标用户所在数据库上的生成,DML、Control File、Workflow、Job需要下一步的执行才可以真正完成
“执行(Execute)”工作,实现周期ETL

    3)稳定性:针对一段历史时期,主要用来查询和分析,不用来更新;

    4)反映历史变化:一般都含有时间键,建设周期为5~10年;

  3.3 数据仓库的开发过程介绍
    3.3.1 规划分析阶段

      1)开发目标,包括决策分析内容、技术角度分析、项目目标和工程计划;

      2)预算估计,编写详细设计说明书;

      3)进行概念模型设计,

      4)进行逻辑模型设计,
    3.3.2 设计实施阶段
      业务数据层 -> 数据缓存区 -> 数据仓库层 -> 数据决策层 -> 决策分析层
    3.3.3 使用维护阶段

  3.4 数据仓库系统组成部分介绍
    3.4.1 数据源分析

      1)范围分析:分析数据的范围

      2)格式分析:存储类型、长度、精度

      3)更新方式:更新方式、更新频率、更新内容

      4)质量分析:完整性、准确性、一致性;
    3.4.2 数据迁移

      1)数据抽取:直接抽取、间接抽取;

      2)数据转换:转换规则,要加SQL语句;

      3)数据装载:存在方式包括全表对比、时间戳、全表删除后插入;
    3.4.3 数据存储
    3.4.4 元数据:技术元数据、业务元数据:

  3.5 数据仓库模型设计介绍
    3.5.1 概念模型设计

      将业务数据抽取出来,并按照主体域进行划分;
    3.5.2 逻辑模型设计

      分析需求:需求目标、维度指标、维度层次、分析的指标、分析的方法、数据的来源、关注的对象;

      时间戳、粒度层次的划分
    3.5.3 物理模型设计

  3.6 数据集市

    小型的部门级别的数据仓库
    3.6.1 数据集市的类型
      独立型、从属型
    3.6.2 数据仓库和数据集市的区别

      来源于数据仓库,一般定义雪花和星型模型(分事实表和维度表)、高度索引、代表一部分历史数据、用以OLAP

  3.7 数据仓库的详细实施步骤
    3.7.1 需求分析
    3.7.2 逻辑分析
    3.7.3 设计ODS系统

      1)ODS数据缓冲区,采用增量抽取的方式;

      2)ODS统一视图信息区,
    3.7.4 数据仓库建模
    3.7.5 数据集市建模
    3.7.6 数据源分析
    3.7.7 数据的获取和整合
    3.7.8 应用分析,图形、列表、报表、文字报告
    3.7.9 报表展现,

  1. 商业智能ETL的介绍
      4.1 ETL的体系结构
        Mapping设计 -> 元数据资料库 -> Job控制
      4.2 主流的ETL工具

    主要功能:数据源的支持、数据转换、管理和调度、数据集成、元数据管理
  4.3 详解ETL的过程
    4.3.1 数据抽取
      1. 若数据库相同,则采用ETL工具写SQL直接抽取;
      2. 若不同,则可以到处文件,间接抽取;
      3. 数据量非常大,则可以考虑增量抽取;
    4.3.2 数据清洗
    4.3.3 数据转换
      1)对空值的处理;

      2)对数据格式的规范化;

      3)对缺失数据的替换;

      4)根据业务规则对数据进行过滤;

      5)对业务字段进行拆分或合并;

      6)根据编码表对数据进行唯一性转换;
    4.3.4 数据加载
    4.3.5 ETL日志

  1. OLAP简介
      5.1 OLAP的实现方法

    1)ROLAP,基于关系型数据表的OLAP,将多维数据分为事实表和维度表;

    2)MOLAP,基于多维数据的OLAP,主要存储与多维立方体;

    3)HOLAP,混合上述两类;

  5.2 OLAP的分类
    1) 穿透:对详细数据的钻取;
    2) 上钻:从细到粗展示数据;
    3) 下钻:从粗到细展示数据;
    4) 切片:在维上选定值后,展示相关的数据;
    5) 切块:在维上选定一个范围后,展示相关的数据;
    6) 旋转:类似于行列呼唤;

  1. ODS和数据仓库的结合
      6.1 ODS的主要功能

    1)作为业务数据和数据仓库之间的隔离地带

    2)降低业务系统压力,复杂报表和细节查询可以由业务系统迁移到ODS

    3)满足从微观角度查询数据,
    4)数据的实时整合
    5)数据质量检查

ODS 支持中低级别的OLAP,数据仓库支持长期的趋势数据;