1. 概述
本文主要介绍如何创建质量模型。由于平台是基于主题表进行数据质量检查,故在创建质量模型之前,需先将待检查的库表创建为主题表,具体的主题表创建方法见【数据集】部分内容。需要注意的是,这里的主题表不能创建在内置的【质量分析】主题域下。
2. 操作步骤
2.1新建质量模型
在【数据质量】的【质量模型管理】页面,点击【新建】,选择【新建模型】。
在弹出的对话框中输入【模型名称】,在【主题集】中选择对应主题集。
结果存储连接池若不指定则默认为【系统连接池】,如下图。这里是设置质检结果表所在连接池,后续我们可以基于这些质检结果表制作个性化的质检报告等。
数据期的作用是定义数据的周期,也就是产出报告的最小周期。如需要至少每个月出一个报告,那么数据期类型为月,以此类推。勾选高级选项后,可设置数据期范围。
这里,我们设置数据期类型如“月”,如下图。
若勾选【高级选项】,可编辑具体的【开始时间】和【结束时间】,前期范围无需设置(由系统自动生成),如下图。
数据级次是用来控制用户可以操作的数据范围。
比如,这里我们设置“人员维”为数据级次维,前提是在“主题集1(勿删)”该主题集下已经创建好了人员维。
这样,后续我们可以通过给用户授予数据级次权限,控制用户在“质量监控”“数据整改”“质量报告”等模块看见的数据范围。比如我们给某用户授予“研发中心”的数据级次权限,这样,该用户只能看见研发中心的质检数据。
2.2添加主题表
接着,我们将需要质检的主题表添加进来,下面为具体操作步骤。
在【质量模型管理】中点击上面新建的质量模型,切换到【主题表】页,点击【添加】,在弹出窗口的左侧所有主题表中选择要添加的主题表,点击>右箭头使其进入右侧选中状态,点击<左箭头则表示取消选中,如下图。(PS:>>右箭头表示全部选中,<<左箭头表示全部取消选中)
这里,我们将“个人周报表”和“员工信息表”都添加进来,如下图,点击【确定】完成添加。
2.3设置主题表属性
添加完主题表后,还需对这些主题表进行相应属性设置。
1)过滤条件比如,“员工信息表”仅需要针对在职员工信息进行质检,则可以为该主题表添加过滤条件。在质量模型的【主题表】页,找到“员工信息表”点击【编辑】,对主题表“IYGXX_XXB7”中的“SFZZ”(是否在职)字段编写过滤条件:IYGXX_XXB7.SFZZ="1"(如无过滤需求则不填)
注:也可以使用其他主题表字段进行过滤,但这时主题表间需要有连接方式为“智能连接”的表关联关系,表关联关系在【数据集成】-【数据集】中定义,具体见《设置表关联关系》章节。
质量模型中,被添加用来质检的主题表,必须设置关键字。关键字是用来唯一识别一行数据,可设置一个或多个。
这里设置“员工信息表”的【关键字字段】为“员工id”,如下图。
设置“个人周报表”的【关键字字段】为“DB2INDEX_”,如下图。
在前面创建质量模型时我们设置了数据期和数据级次,这里我们来指定各主题表的数据期字段和数据级次字段。主题表不设置数据期字段则每次都是全量质检,设置数据期字段后则是分数据期进行质检;不设置数据级次字段,则质检结果无法分级次查看。
主题表“个人周报表”,数据期的【字段来源】选择“当前表”,指标表达式设置为:left(RQ,6),表示取RQ(日期)字段中的数据AAAA(年)BB(月)CC(日)的前6位,与质量模型设置的数据期“月”相匹配;数据级次的【字段来源】选择“当前表”,指标表达式选择字段“USERID_”如下图。
主题表“员工信息表”,无数据期字段,不用设置数据期,数据级次的【字段来源】选择“当前表”,指标表达式可选择对应业务含义的字段或编写表达式,如下图。
注:数据期字段和数据级次字段也可以来自其他主题表,这时需要下拉选择表关联关系,表关联关系在【数据集成】-【数据集】中定义,具体见《设置表关联关系》章节。
3. 其他功能
3.1设置表关联关系
执行质检时若提示主题表之间缺少关联关系,如下图,则需要在【数据集成】-【数据集】中定义表关联关系(连接方式为“智能连接”),具体见《设置表关联关系》章节。
在数据质量页面将默认显示与已添加主题表相关的关联关系,此列表仅展示连接方式为“智能联接”的关联关系,若未设置关联关系则显示无数据,如下图。
3.2修改数据期范围
当质量模型设置的现有数据期无法满足用户使用需求时,则数据期的范围需要得到修改。举个例子,用户在先前的模型创建中把【数据期】的结束时间设置在2022年,但后来用户需要能进行2023年的质检,这时就需要修改数据期范围。
点击质量模型,在打开的右侧页面中切换到【数据期】页进行编辑与重新物化。
点击【编辑】,在打开的页面中对数据期进行编辑,如下图所示,通过文本显示/树形显示切换,树形显示不能编辑,文本显示中第一行为字段信息,修改数据期时直接编辑字段值即可,各字段值之间使用Tab键进行间隔,修改完毕点击保存 。
(编辑数据期树形显示)
(编辑数据期文本显示)
另外,还可以通过【重新物化】更新数据期的值。【按起止时间物化】是设置开始时间和结束时间来自动算出数据期的值。【按主题表数据物化】则是根据主题表中数据期字段的值得到数据期值。
【按主题表数据物化】后结果如下图,表示数据库表中只有下图所示这些期的数据。
3.3更新数据级次
数据级次是通过质量模型中定义的数据级次的维表生成的,数据级次的数据不会实时随数据库变化,当数据库的信息发生变化,需要点击【数据同步】使得数据与数据库内容保持一致。
请先登录