1) 按元数据的类型分类
(1) 关于基本数据的元数据:基本数据是指数据源、数据仓库、数据集市和应用程序管理的所有数据。基本数据的元数据包括定义、结构的所有描述。
(2) 用于数据处理的元数据:对数据装载、更新处理、分析处理、管理方面的信息,如数据抽取、转换、聚合规则等的描述。
(3) 关于企业的组织结构的元数据:包括与企业相关的管理方面的数据和信息,如用户访问数据仓库、数据源、数据集市的权限信息等。
2) 按抽象级别分类
(1) 概念级:包括业务的全部描述,如定义主要的业务实体、特征及其相互关系,系统的使用方法、已定义的查询、视图和现有的应用等相关的信息。
(2) 逻辑级:包括数据库的关系方案、逻辑多维模型等一般用伪码或数学语言描述数据抽取/转换的规则等。
(3) 物理级:包括业务规则相应的SQL代码、关系的索引文件、分析应用的代码。
3) 按元数据承担的任务分类
根据元数据在数据仓库中所承担的任务分类,可分成静态元数据和动态元数据。
静态元数据主要与数据结构有关,包括如下要素。
(1) 名称类:用于为系统提供标识时区分数据的符号。
(2) 描述类:对数据仓库中的多种数据元素进行说明。
(3) 格式类:提供数据仓库中数据的表达规则。
(4) 数据类型:数据仓库中数据的类型。
(5) 关系类:说明数据仓库中多种数据对象之间的关系。例如,客户与商品之间有购买关系。
(6) 域类:用于说明数据仓库中数据的有效值范围。
(7) 业务规则类:用于说明数据仓库中数据在业务处理中所要遵守的规则。例如, Customer_ID表示客户的编号,开头字母为A表示集体客户,B表示个人客户。
动态元数据主要与数据的状态与使用方法有关,包括如下要素。
(1) 数据质量表:用于描述数据仓库中数据的精确度、完整性、一致性和有效性。
(2) 统计信息类:统计访问数据的用户、访问时间和访问次数。这些统计信息对于数据仓库性能的提高具有较高的参考价值。
(3) 状态类:用于跟踪数据仓库的运行状况。例如,数据最近一次的备份时间、备份所需要的时间、出现的错误情况等状况。这些系统运行中的状况有助于数据仓库管理人员对数据仓库性能的了解。
(4) 处理类:描述数据仓库系统的使用方法和管理的特性。例如,数据的使用方法、概括数据的概括公式等。
4) 从用户的角度分类
这种分类方法与元数据的使用目的相关。从用户的角度来看,这种分类方法没有一个统一的标准,在实际中往往按习惯、可行、适用的原则进行划分。
目前一般分为两大类:技术元数据和业务元数据。技术元数据是关于开发、维护和管理信息技术环境中所有的分析、设计、开发、管理等与技术关系密切的元数据,它是连接开发工具、应用程序和系统的技术纽带。业务元数据则使企业环境的服务更易于为终端用户所理解,它为业务目标和过程的解释提供便捷的浏览、导航和数据查询。
(1) 技术元数据包括对数据库、数据仓库、数据集市的数据字典、数据转换规则的代码等的描述数据。例如:
① 关于操作系统、数据仓库和OLAP系统的体系结构和方案的描述信息,表的结构、属性限制、视图信息等。
② 对不同信息源、数据仓库和OLAP系统之间在物理和实现级上的映射和依赖关系的描述。
③ 抽取调度的元数据,包括抽取调度的复杂关系、源数据与目标数据之间的映射。
④ 时间同步的元数据。
⑤ 用户权限信息。
(2) 业务元数据包括特定应用的文档(用户简介、存储映射、使用提示、导航帮助等)、业务概念和术语、预定义的查询和报表的细节、上下文信息、度量衡描述、日期格式、字典、主题词表等。例如:
① 企业概念模型。
② 多维数据模型,维、维类别、数据立方体、数据集市的聚合原则。
③ 业务概念模型和物理模型之间的依赖关系。
④ 支持面向业务概念的浏览、导航。
⑤ 支持动态立即查询、数据挖掘。