了解元数据
1. 概述
元数据是描述数据特征的数据,是数据治理中各类数据管理活动的基础,用于描述、分析企业数据资产,助力理清数据的来龙去脉,进而挖掘出隐藏在资源中的价值。睿治元数据模块涵盖了元模型管理、元数据采集、元数据检索、元数据质量核检、元数据分析、数据地图等功能。
2. 作用
- 1)理清数据字典,了解数据来龙去脉。
- 2)提高数据信息的传递性,减少重复工作。
- 3)通过平台丰富的元数据分析和核检功能,帮助企业追溯数据流向,快速定位问题数据并及时响应,降低数据管理和维护难度。
- 4)为数据治理、数据应用及数据服务夯实基础。
3. 实施流程
4. 功能概述
4.1. 元数据检索
睿治元数据管理提供全文检索功能。支持对检索范围、检索类型、修改时间进行过滤;可保存常用的过滤条件,方便快速查找到常用的元数据。
元数据检索
4.2. 元数据采集
1)采集适配器
睿治元数据内置丰富的元数据采集适配器,且适配器采用可扩展设计,最大限度满足自动化采集需求。睿治元数据总共支持57种元数据适配器,其中数据库类型有20+种,报表工具有14种,etl工具有8种等,满足用户多样的采集需求。
内置采集适配器
2)采集任务配置
对元数据信息的维护除界面手动操作方式外,元数据管理平台利用内置采集适配器,让用户通过配置数据源参数及定时采集任务,进行自动化采集,实现直连数据源的端到端元数据采集,同时可对不需要采集的元数据进行过滤设置。
3)入库审核
安排专人进行审核,依据元数据变更申请的内容,判断元数据变更是否正确,评估元数据变更的影响。
4.3. 元数据管理
睿治元数据管理提供了元数据监控、元数据质量检核、元数据分析、元数据变更管理、元数据审批等功能,对元数据进行管理。
1)元数据监控
睿治元数据监控页面,统计了元数据各种数据以及变更和关联情况,可以对元数据的主要信息一览无余,方便用户对已经采集的元数据的情况的监控。
元数据监控
2)元数据管理
睿治元数据管理功能提供各类元数据管理,包括:业务元数据、技术元数据和管理元数据,支持元数据的基本信息、属性、依赖关系、组合关系的增删改查操作。不仅区分了最新和定版元数据,还可以查看和对比历史版本,追踪责任人,问责清晰。
元数据管理
3)元数据分析
睿治元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、关联度分析、属性差异分析、元数据对比分析、重复元数据分析、元数据对比分析、重复元数据分析,同时支持将分析结果进行导出和收藏保存。
元数据分析
4)元数据质量核检
由于元数据是很多数据管理活动的基本,所以元数据的质量尤为重要。睿治元数据提供元数据质量检核功能,包括一致性检核、属性填充率检核和组合关系检核,是保障元数据质量的重要手段之一。支持配置定时核检任务周期性进行元数据自动核检。
元数据核检
5)元数据变更管理
睿治元数据管理平台面向不同场景,提供了严谨的元数据变更管理相关功能。包括元数据变更订阅、元数据变更查询。
- 元数据变更订阅
元数据变更订阅是对指定元数据进行订阅,该元数据发生变更,及时通过邮箱通知用户,及时把握元数据变更情况,对变更元数据进行变更跟踪。
元数据变更订阅
- 元数据变更查询
元数据变更查询是通过平台查询元数据变更历史,对最新元数据的每一次变更进行留痕,所有元数据历史信息皆按需可查询。可以选择查询范围、元数据类型、变更日期等多维度条件进行查询。
元数据变更查询
4.4. 元模型管理
睿治元数据以Meta Object Facility(MOF)规范为基础,支持XML格式的元模型导入和导出,同时内置大量技术元数据、业务元数据的元模型,用户可直接使用。支持对元模型的基本信息、属性、父子关系、依赖关系、组合关系的增删改查操作,内置元模型的内置信息不允许修改或者删除,但可进行新增操作。元模型支持发布功能,只有发布后的元模型才可被元数据使用,同时支持查看所有发布版本。
内置元模型
4.5. 数据地图
睿治元数据全局数据地图可以一目了然的查看各系统间的联系,从宏观上把控数据关系。
数据地图
5. 名词解释
1)元数据:元数据是关于描述数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据,提供了相应数据的上下文环境的描述信息;元数据是业务数据中心、数据仓库和数据分析等大型应用的基础设施。
2)元模型:定义元数据的属性、关系的模型,元数据的采集需要依赖元模型。
3)父子关系:子类元模型可继承父类元模型所有的属性,是将所有一类元模型将相同的属性抽取出来,形成一个父类元模型。例如:父类为哺乳动物,而人、猫、狗都是子类。
4)组合关系:描述组合端模型由被组合端模型所组成,如:物理表模型是由字段模型组成,报表是由报表字段组成,主题域由维表和主题集组成。在元数据采集的过程中会根据采集挂载点的元数据对应元模型的组合关系来将所有元模型对应的元数据都采集过来。在元数据分析时,元数据节点展开后显示的元数据时由元模型的组合关系决定。
5)依赖关系:描述模型与模型之间的引用关联关系,如:报表用到了主题表,则报表依赖主题表;视图用户到表,则视图依赖于表。各种分析出来的效果会根据元数据之间的依赖关系来进行连线。
6)血缘分析:血缘分析是从某一个元数据作为起点,往回追溯数据处理过程。
7)影响分析:影响分析是从某一个元数据出发,寻找依赖该元数据处理过程的元数据或者实体。
8)全链分析:全链分析是以某个元数据为目标节点,其前后与其有关系的所有元数据,其前反应数据的来源,其后反应数据的处理过程。
9)数据地图:以拓扑图的形式展现各类元数据或实体、数据处理过程元数据进行分层次的的图形化展现。