概述
定义
DataWorks基于MaxCompute、Hologress、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。
产品架构
核心概念
数据集成
-
数据源
DataWorks数据源用于连接不同的数据存储服务。在配置数据集成同步任务之前,您需要首先定义好同步任务的源端和目的端数据源信息,以便在配置同步任务时,能够通过选择数据源名称来确定数据的读取和写入数据库。一个工作空间支持添加多种数据源实例。
-
数据同步
数据集成数据同步支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)。数据同步支持多种同步方式,如离线同步、实时同步、单表/整库全增量同步等,除此之外,还支持Serverless同步任务(Serverless同步任务无资源组概念,只需关注同步任务本身)
数据建模
-
数据建模
随着业务的快速发展,企业数据呈几何倍增长,数据量庞大、复杂、各类数据间标准不一致,往往会出现数据难以管理的现象。DataWorks数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化、有序的管理。使企业中的数据产生更多的价值,将数据价值最大化。
-
逆向建模
逆向建模是将物理表逆向生成逻辑模型,该功能帮助您无需再次执行建模操作即可快速创建模型,节省了大量的时间成本。
-
建模空间
当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时,面对跨多个工作空间的复杂数据体系,可以通过设计空间来共享一套数据建模工具,针对整个数据体系进行统一的数仓规划、维度建模及指标定义等工作。
-
维度表
结合业务的数据域的规划,提取出各业务数据域中进行数据分析时可能存在的维度,并将维度及其属性通过维度表的方式存储下来。例如,在进行电商业务数据分析时,可用的维度及其属性有:订单维度(属性包括订单ID、订单创建时间、买家ID、卖家ID等)、用户维度(性别、出生日期等)、商品维度(包括商品ID、商品名称、商品上架时间)等,此时您就可以将这些维度和属性创建为订单维度表、用户维度表、商品维度表等,将维度属性记录作为维度表的字段。
-
明细表
结合业务过程的规划,梳理分析各业务过程中可能产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。例如,在下订单这一业务过程中,您可以创建下订单这一明细表,用于记录下单过程可能产生实际数据字段,例如订单ID、订单创建时间、商品ID、数量、金额等。后续您可将这些明细表部署到数仓中,通过ETL将真实的数据按照明细表的定义方式进行汇总存储,便于业务分析时取用。
-
汇总表
汇总表用于组织一个数据域下相同时间周期、相同维度的多个派生指标的统计数据,是对业务高度抽象后的梳理结果,为后续的业务查询,OLAP分析,数据分发等提供基础。
-
应用表
应用表是面向具体业务场景,用于组织相同时间周期、相同维度的多个原子指标、派生指标或统计粒度的统计数据,为后续的业务查询,OLAP分析,数据分发等提供基础。
-
数据集市
数据集市是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数据应用层,依赖于公共层的整合数据。
数据域
数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起,便于您快速查找需要的内容。不同使用目的数据,分类标准不同。例如,电商行业通常分为交易域、会员域、商品域等。
-
业务过程
业务过程是企业在指定的数据域中所执行的业务活动,是数据建模所需要分析的逻辑主体。例如,交易域中可以有加入购物车、下单、支付等业务过程。
-
复合指标
由于派生指标只是针对某业务活动某段时间的数据量统计,无法满足贴近用户实际使用的业务增长率、差值计算等数据的比对需求(例如,统计某业务活动的周环比增长率)。因此,DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合指标,帮助您更加灵活且细粒度地定义业务指标。
-
数据指标
DataWorks的数据建模提供数据指标功能,为您提供统一的指标体系建立能力。
指标体系由原子指标、修饰词、时间周期和派生指标构成。
-
原子指标:是基于某一业务过程下的度量,如“支付订单”业务过程中的“支付金额”。
-
修饰词:是对指标统计业务范围的限定,如限定“支付金额”的统计范围为“母婴类产品”。
-
时间周期:用于明确指标统计的时间范围或者时间点,如指定统计“支付金额”的时间周期为“最近7天”。
-
派生指标:由原子指标、修饰词、时间周期组合定义。如,统计“最近7天”“母婴类产品”的“支付金额”。
-
-
标准代码
标准代码是字段标准的取值范围,在标准代码中可设置某一字段标准可选择的数据的内容以及范围。例如性别字段标准的标准代码内容应该为男或女。
-
字段标准
字段标准是对含义相同但字段名称不同的数据进行统一规范管理的数据准则,字段标准可定义字段的取值范围、度量单位等内容。当字段标准发生变化时可快速定位或变更对应的表,极大地提升了应用效率和准确率。
数据开发
-
节点
DataWorks的数据开发模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可统筹管理多个节点的虚拟节点、可循环执行代码的do-while节点),多种节点配合使用,满足您不同的数据处理需求。
-
业务流程
针对业务实体,抽象出业务流程的概念,帮助您从业务视角组织代码的开发,提高任务管理效率。
说明
业务流程可以被多个解决方案复用
业务流程帮助您从业务视角组织代码:
-
支持基于任务类型的代码组织方式
-
支持多级子目录(建议不超过四级)
-
支持从业务视角查看整体的业务流程,并进行优化
-
支持根据业务流程组织发布和运维
-
提供业务流程看板,帮助您更高效地进行开发
-
-
Notebook
DataWorks Notebook是一种交互式开发环境,允许用户通过整合代码(如SQL和Python等)、文本、代码执行结果和数据可视化图表来进行直观的数据探索、分析和AI模型开发。
-
SQL 组件
仅适用于MaxCompute,您可以将SQL中的通用逻辑抽象为组件,提高代码的复用性。
SQL代码的处理过程通常是引入一到多个源数据表,通过过滤、连接和聚合等操作,加工出新的业务需要的目标表。组件是带有多个输入参数和输出参数的SQL代码过程模板。
-
依赖关系
任务间通过依赖关系定义任务的运行顺序。如果节点A运行后,节点B才能运行,我们称A是B的上游依赖,或者B依赖A。在DAG中,依赖关系用节点间的箭头表示。
-
业务日期
通常指的是与业务活动直接相关的日期,这个日期反映了业务数据的实际发生时间。这个概念在离线计算场景中尤为重要,例如在零售业务中,您需要统计20241010日的营业额,往往会在20241011日凌晨再开始计算,这时所计算出来的数据实际是20241010日的营业额,这个20241010,就是业务日期。