3分钟全面了解元数据和数据元

元数据:描述其它数据的数据(data about other data)

元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

举个例子:在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:

Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。

元数据最大的好处是,它使信息的描述和分类可以实现结构化,从而为机器处理创造了可能。

数据元:可理解为数据的基本单元

卫生信息基本数据元规范和定义了医药卫生领域所有相关信息的唯一中文名称与代码,并且代码以字母、汉字、数字式的字符串形式表示。

数据元列举并定义了特定语义环境中的一种信息资源。

完整的数据元名称=对象类术语+特征类术语+表示类术语+(限定类术语)

其中:

一个数据元有且仅有一个对象类术语(object class):是现实世界或抽象概念中事物的集合,有清楚的边界和含义,因其特性和行为遵循同样的规则而能加以标识。

一个数据元有且仅有一个特征类术语(property):是对象类的所有个体所共有的某种性质,也是对象有别于其他成员的依据,是用来区分和识别事物的一种手段。特征类术语是任何一个数据元名称所必须的成分,在数据元概念可完整、准确、无歧义表达的情况下,其他术语可以酌情简略。

一个数据元有且仅有一个表示类术语(representation):是值域、数据类型和表示方式的组合,也包括计量单位和字符集等信息。当表示类术语与特征类术语有重复或部分重复时,可从名称中将冗余词删除。

限定类术语由专业领域给定,限定类术语是可选的。

数据元基本模型

数据元与元数据的区别和联系

  1. 元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。

  2. 数据元的相关信息是任何一个(组织的)元数据的一个完整的组成部分。

  3. 元数据的每一个元素都是一个数据元,用符合数据元标准的元数据属性和描述方法来说明元数据。

  4. 将元数据存储于一个库中,并使之条理化就需要建模,建模就需要从数据元的注册系统中或库中获取元数据。

  5. 元数据,它是以一种一致、标准的方式来表达的数据元。

  6. 元数据与数据元字典格式均由行号、中文名称、英文名称、标识符(短语)、定义、约束/条件、最大出现次数、数据类型、数据的值域等属性组成。不同之处是数据元字典格式中另有语境和同义词名称等属性。

总而言之,元数据和数据元的定义是从不同角度论述的。由于描述的侧重面不同,元数据和数据元的描述属性也有些区别,但是元数据和数据元的字典格式是基本一致的。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平