睿治
当前版本:2.7.2

元数据分析

1.概述

睿治元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、关联度分析、属性差异分析、元数据对比分析、重复元数据分析、元数据对比分析、重复元数据分析、同时支持将分析结果进行导出和收藏保存。

2.图谱展示

2.1前置条件

元数据分析关系图谱的优化,能够使用户在分析展现界面一目了然的看出各个对象之间的关系,自由的展示分析的程度,清晰的了解元数据的来龙去脉。

现以分析数据工厂和数据库元数据之间的依赖关系为例,来看元数据分析关系图谱的展示。

ETL任务设计如下:

2.2操作步骤

(1)简洁模式

在“数据库mysql8”找到元数据“esc55_eacl_org”,元数据类型是表。

点击分析下拉框,选择【影响分析】,默认进入简洁模式,显示间接依赖,间接依赖用虚线表示,页面下方展示图例,展示画布中所含有的元数据类型及颜色标志,图例根据分析的数据动态展示。

切换依赖至直接依赖,直接依赖用实线表示。

点击“表达式组件”图例,图例置灰,页面不显示“表达式组件”节点。

再次点击“表达式组件”图例,图例恢复颜色显示,页面显示“表达式组件”节点。

(2)完整模式

点击【完整模式】按钮,切换至完整模式,展示元数据分析的所有依赖。

展开“睿治241”的下级节点可以查看更细粒度的元数据分析。

点击“esc55_eacl_org”库表节点,节点本身以及有关联的元数据和线条高亮显示,便于清晰的查看数据流向。

从元数据分析图谱可以看出,“esc55_eacl_org”库表经过数据工厂ETL任务“esc55_eacl_org”表输入——>表达式组件——>“esc55_eacl_org_1”表输出到库表“esc55_eacl_org_1”的数据流向。

3.血缘分析

血缘分析是分析元数据的上游数据信息,用于追溯元数据的来源和加工过程。

在【元数据】-【元数据管理】-【元数据分析】模块,选择【血缘分析】进入,选中居民生活分析主题下的水费表,然后点击血缘分析。

得到血缘分析结果如下:

 

点击各节点中的倒三角可将元数据展开到更细粒度的级别展示。

由血缘分析结果,我们可以看到:水费表关联的是数据仓库中的街道用水用电信息表表,数据仓库中的街道电费表、街道水费表又和业务库中居民生活信息表、街道企业信息表存在间接关联关系。通过血缘分析,水费表的数据来源和加工过程一目了然。

点击【保存】可将分析结果保存到我的分析。

对于保存的结果,我们可以在【元数据】-【元数据管理】-【元数据分析】-【我的分析】里进行查看、重命名和删除等操作。

3.1原理

血缘分析图中,元数据节点展开后显示的元数据是元数据的组合关系决定。比如,居民生活分析主题展开后显示了用水用电报表分析,则说明居民生活分析主题这个元数据的组合中一定有用水用电报表分析

元数据节点之间的连线则是根据元数据的依赖关系生成。元数据采集时会自动生成依赖关系,也可以手动维护依赖关联。比如,数据仓库中的街道用水用电信息表指向了政务数据分析中的水费表,也就是说水费表主题表依赖于街道用水用电信息表,那么在水费表这个元数据的依赖中一定有街道用水用电信息表。

4.影响分析

在【元数据】-【元数据管理】-【元数据分析】模块,选择【影响分析】进入,选中数仓库下的街道用水用电信息表,然后点击影响分析。

得到影响分析结果如下:

我们可以看到:用水用电报表分析引用到了街道用水用电信息表,也就是说街道用水用电信息表变更后可能影响该分析报表。

原理:同血缘分析。

5.全链分析

在【元数据】-【元数据管理】-【元数据分析】模块,选择【全链分析】进入,选中数仓库下的街道用水用电信息表,然后点击影响分析。

得到下图中的结果。

展开各节点,得到下图结果:

可以看到全链分析是血缘分析+影响分析,元数据的来龙去脉都可以在这张图上得到展现:报表平台中的水费表主题表关联的是数据仓库中的街道用水用电信息表,数据仓库中的街道用水用电信息表表由街道电费吧、街道水费表加工得到;而水费表主题表被用水用电报表分析等分析报表引用。

原理:同血缘分析。

6.关联度分析

通过关联度分析,可以分析元数据的重要程度,关联度(关联次数)越高的元数据重要程度越高。

元数据的关联度等于该元数据的被依赖次数,也就是说关联度反映了元数据的影响范围。它和影响分析的差异在于,关联度分析反映的是直接影响,而影响分析反映的是整个影响链条(直接影响+间接影响)。

关联度分析的应用场景有:

1) 从各业务系统中采集上来的元数据繁多,短期之内难以完成全部的梳理工作,此时可根据依赖关系筛选出核心元数据,而后优先管理这部分数据,完善补充元数据信息,进行质量检查等。

2) 当元数据需要变动时可通过关联度分析评估它的影响范围、重要程度,从而评估元数据变更的风险。

3) 各业务系统中共享的数据往往存在一定依赖关系,通过关联度分析可反映出依赖度高的数据,以此作为参考有助于进行主数据的识别。

6.1关联分析

应用前提:维护好各元数据的依赖关系,从而保证分析的准确性与全面性。

选择最新元数据或定版元数据中需要分析的元数据,设置元数据类型(如表、字段)及TopN值(指仅查询关联度最高的前N项),点击关联度分析即可得出此元数据及下属元数据与其他元数据的关联度。

假设现需查找最新元数据abidb(元数据类型:库)中关联度高的字段型元数据优先进行元数据属性的补充。这里选择abidb作为分析对象,元数据类型设置为字段,TopN值不做要求,可得到如下分析结果。

分析发现,在abidb库中,BBQ_、id、DM_ID、BTYPE_等字段关联度较高。点击柱形图中的数据块或表格中的关联次数,可查看该元数据的关联详情。

上图关联详情中显示了与id字段有依赖关系的所有元数据。点击元数据代码,可查看对应元数据的详细信息,并对元数据信息进行编辑维护。

关联分析界面中,点击右上角的保存按钮可将分析结果保存至我的分析中方便进行查看,支持自定义命名。

分析结果保存成功后,可在【我的分析】中查看。

点击想要查看的分析主题即可查看对应的分析结果。

7.属性差异分析

属性值差异分析是选择同类型的元数据进行属性的对比,比较它们的相同或不同之处,为元数据质量检查提供依据。

7.1属性差异分析操作

比如,将某业务系统中的元数据采集上来之后发现多张表中均有员工id字段,我们想看下这些员工id字段是否有不同。

默认是比较最新元数据,这里我们保存默认。在【选择元数据】的资源树中勾选需要比较的元数据,然后点击【属性值差异分析】,即可得到这些元数据的属性差异分析结果。有差异的属性会高亮标出。

另外,我们也可以选择一个“员工id”元数据后点击【推荐元数据】,系统可自动匹配其他相似的元数据,点击推荐元数据的√,可以选择该元数据进行分析,点击已选元数据的×,可取消该元数据分析,最多可选择5个元数据进行分析。

在属性差异分析结果页面,点击左下角的【保存】按钮,可将分析结果保存至【我的分析】中。

分析结果保存成功后,可在【我的分析】中查看。

8.元数据对比分析

元数据对比分析用于检查两个元数据及其下属元数据之间的属性信息的差异。和属性值差异分析相比,元数据对比分析除了对比元数据本身属性,还会对比下属元数据的属性信息,另外元数据对比分析支持最新元数据和定版元数据做对比。

8.1元数据分析对比操作

我们比较挂载点“数据库_运营mysql”的最新元数据和定版元数据的差异,实际上是比较该挂接点下所有元数据最新版和定版之间的差异。

1)选择对比元数据

这里选择定版元数据中的“数据库_运营mysql”作为基准元数据,选择最新元数据中的“数据库_运营mysql”作为对比元数据。

2)设置对比属性

对选择的元数据及下属元数据中需要对比的属性进行设置。默认所有属性都不参与对比,这样只能对比出新增和删除的元数据,无法得到修改的元数据。这里,我们设置表和字段的所有属性都参与对比。

3)对比分析

点击【开始对比】,即可查看对比结果。从对比结果列表中可以看到,数据库_运营mysql最新元数据中字段及表类型的元数据发生了变化,删除了14个字段型元数据及1个表类型元数据,修改了1个表类型元数据。

点击左上角树形按钮可切换到树形展示页面。树形中展示了所有存在差异的元数据,可以清晰看到删除的14个字段来源于同一张表。

4)查看差异详情

在对比结果列表中,点击新增、修改、删除的数目(不为0),即可查看变更详情。

变更详情中展示了发生变更的具体元数据,选中元数据代码,可查看元数据对比信息。有差异的属性值会以高亮的形式进行标注。

9.重复元数据分析

重复元数据分析用于找出重复元数据,当元数据名称或者代码相同时,会被认为是重复元数据。

9.1重复元数据分析操作

在元数据分析模块,选择【重复元数据分析】。

选择元数据挂载点,点击【执行】,即可得出重复元数据分析结果。


附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇

下一篇垃链表组件

请先登录