睿码主数据
当前版本:2.7.3

创建质量模型

主要介绍如何创建质量模型。由于平台是基于主题表进行数据质量检查,故在创建质量模型之前,需先将待检查的库表创建为主题表,具体的主题表创建方法见【数据集】部分内容。需要注意的是,这里的主题表不能创建在内置的【质量分析】主题域下。

【操作步骤】

新建质量模型

在【数据治理】下【数据质量】的【质量模型管理】页面,点击【新建】,选择【新建模型】。

在弹出的对话框中输入【模型名称】,在【主题集】中选择对应主题集。
结果存储连接池选择数据源连接池下的连接池。这里是设置质检结果表所在连接池,后续我们可以基于这些质检结果表制作个性化的质检报告等。
设置数据期:
数据期的作用是定义数据的周期,也就是产出报告的最小周期。如需要至少每个月出一个报告,那么数据期类型为月,以此类推。勾选高级选项后,可设置数据期范围。
这里,我们设置数据期类型如“月”,如下图。
若勾选【高级选项】,可编辑具体的【开始时间】和【结束时间】,前期范围无需设置(由系统自动生成),如下图。
设置数据级次:
数据级次是用来控制用户可以操作的数据范围。
比如,这里我们设置“行政区划”为数据级次维,前提是在“oracle11g”该主题集下已经创建好了行政区划维。
这样,后续我们可以通过给用户授予数据级次权限,控制用户在“质量监控”“数据整改”“质量报告”等模块看见的数据范围。比如我们给某用户授予“北京市”的数据级次权限,这样,该用户只能看见北京市的质检数据。
设置Spark引擎:
模型启用Spark引擎后,质检任务将被发送至spark分布式计算引擎中多线程计算,极大程度的提高的了质检效率。
大数据质检结果的存储需要满足存储库是大数据类型的数据库,目前仅支持到Hbase类型,既当模型需要启用Spark引擎时存储连接池必须是Hbase类型的连接池。
注意:启用Spark引擎前需要提前在【系统设置】-【参数配置】-【大数据环境配置】页面中完成HDFS服务及Spark引擎配置。

添加主题表
接着,我们将需要质检的主题表添加进来,下面为具体操作步骤。
在【质量模型管理】中点击上面新建的质量模型,切换到【主题表】页,点击【添加】,在弹出窗口的左侧所有主题表中选择要添加的主题表,点击>右箭头使其进入右侧选中状态,点击<左箭头则表示取消选中,如下图。(PS:>>右箭头表示全部选中,<<左箭头表示全部取消选中)

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇数据质量介绍

下一篇新建质检规则

请先登录