What is Data Governance?

Wikipedia

Data Governance is a term used to describe the set of policies and procedures that ensure the data used in an organization is of high quality throughout its lifecycle (input, storage, transformation, access, and deletion).

数据治理是一个术语,用于描述确保组织中使用的数据在其整个生命周期(输入、存储、转换、访问和删除)中具有高质量的一组策略和过程

数据分类管理框架

华为数据之道

分类维度数据分类名称定义特征举例
按照数据所属权进行分类外部数据企业通过公共领域获取的数据客观存在的、产生和修改等行为不受我司影响国家、币种、省市地区
内部数据企业经营产生的数据受企业经营影响合同、组织
数据存储特征结构化数据可存储在关系型数据库的数据国家、币种、合同、组织
非结构化数据形式不固定,不能用关系型数据概述网页、图片、视频、音频、xml
基础数据(参考数据)用于分类或目录整编的数据合同类型、职位、商品类型
主数据具有高价值、可共享、唯一、有权威性的数据客户信息、人员信息、组织信息
事务数据用来记录企业经营过程中的业务事件生成订单
观测数据通过观测工具获取的观测对象行为或过程的记录数据系统日志、传感器日志、gps数据
规则数据描述规则的数据不可实例化、只以逻辑实体形式存在评分规则、xx规则等
报告数据指对数据进行处理加工后,用作业务决策依据的数据收入情况、成本情况

基础数据治理

基础数据=参考数据=维度数据
是静态的、预先定义、且可选值数据有限,用于对其他数据进行分类。
一般基础数据的取值都很少更改,如果要更改,关联影响很大,需要对流程和it系统进行修改,因此基础数据的管理重点在于变更管理和统一标准管控。
该类型的数据的主要作用是用来增强对数据的可读性和解释性, 比如状态编码、性别、产品维表、地理信息等维度数据。由此可见,参数数据的来源可能是内部产生或者外部手动采集获取到的(比如国际标准编码、行业标准)

缺少治理前的问题:

  1. 标准不规范,是产生分类错误导致合规性问题。
  2. 业务语义不同,数据定义不同意,业务难协同
  3. 点对点接口,业务间确认数据定义成本很高

治理点:

  1. 统一平台基础数据元数据管理,在一个平台统一维护基础数据,方便业务查看、使用
  2. 数据质量,要确保基础数据的质量问题,需要对数据进行规范化
  3. 数据安全,确保数据使用的隐私安全性

主数据治理
主数据是具有高业务价值、跨业务系统、可重复利用的数据。这些数据也是预先定义好的,主数据由于会和多个系统有关联,所以一旦出错影响就会很大,所以要确保数据的准确性。
主数据管理策略:

  1. 保障唯一性,主数据是代表公司业务某个业务对象的唯一实例,对应真实世界的对象。要确保其唯一性。
  2. 联邦管控,联邦管控表示在中央制定政策、标准、模型,在地方由数据管家和用户一起在流程的各个层级中实施。
  3. 单一数据源,为确保数据跨系统、跨流程的唯一性和一致性,需要为每个属性的创建、更新、读取确定一个应用系统作为数据源
  4. 流程规范化,正确的数据要在正确的流程中创建、更新、使用,并在正确的应用系统中落地。
  5. 数据质量保障,在创建初期就要对数据质量管控起来。

主数据管理架构:
管控层:由专家团队组成,负责主数据规则的制定与发布
主数据服务设计层:对需要集成主数据的团队提供咨询和方案服务,负责受理主数据管理需求,维护主数据的数据模型
主数据服务实施层:负责主数据集成的落地,以及主数据管理的落地
数据消费层:使用主数据的一层,确保在安全可控的条件下使用主数据

主数据治理价值:

  1. 实现“数出一孔”,提高数据质量,保障一致性、准确性
  2. 实现“一点录入,多点调用”
  3. 主数据打通,实现价值挖掘。多系统打通主数据,实现数据价值最大化
  4. 主数据维度,从全局视角查看整体情况,对全局有个把控

事务数据治理
事务数据在业务和流程中产生,是业务事件的记录,是具有强时效性的一次性业务事件,在事件结束后不再更新。
事务数据治理的重点是管理好事务数据对主数据和基础数据的调用,以及事务之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象,哪些是自身特有的。其实事务数据可以理解成事实表。

报告数据治理
报告数据指的是对数据进行处理加工后,用作业务决策依据的数据,支持报告和报表的生成。这个覆盖的范围很广,可以理解一般的元数据管理普遍的表数据都是报告数据,属于数仓里的表数据。

观测数据治理
观测数据通常数据量较大且是过程性的,由机器自动采集生成。
特征:

  1. 数据量较大,且是过程性的,主要是做监控分析;例如视频监控器产生的视频数据、操作系统的日志数据
  2. 观测数据是由机器自动采集生成的,例如传感器产生数据
  3. 是通过工具采集回来的原始数据,不做任何业务规则的解析

元数据治理

元数据就是描述数据的数据
当前元数据遇到的问题:数据找不到、读不懂、不可信。对应的问题就是集成管理、标准化、数据质量问题。
业务元数据:指资产目录、owner、数据密级
技术元数据:数据模型的表和字段、etl规则、集成关系
操作元数据:调度频度、访问记录

元数据价值:

  1. 数据消费侧:元数据能支持企业指标、报表的动态构建
  2. 数据服务侧:元数据支持数据服务的统一管理和运营,并实现利用元数据驱动it敏捷开发
  3. 数据主题侧:元数据统一管理分析模型
  4. 数据湖侧:实现对暗数据的透明化
  5. 数据源侧:支持业务管理规则有效落地,保障数据内容合格、合规

元数据架构:
产生元数据:指定元数据管理相关流程与规范的落地方案,实现业务元数据和技术元数据的连接
采集元数据:通过统一的元数据模型从各类it系统中自动采集元数据
注册元数据:基于增量和存量的两种常见,制作元数据注册方法
运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维
元数据管理方案:通过制定元数据标准、规范、平台和管控机制,建立企业级元数据管理体系,推动各领域落地,支撑数据底座建设与数字化运营。

数据治理平台 & 产品

Dataman