2.2.3 元数据的结构
元数据格式通过三层结构来完整定义:
(1)内容结构(Content Structure)——对该元数据的构成元素及其定义标准进行描述。
(2)句法结构(Syntax Structure)——定义元数据整体结构以及何如描述这种结构。
(3)语义结构(Semantic Structure)——定义元数据元素的具体描述方法。
1.元数据内容结构
内容结构定义元数据的构成元素,这些元素可包括:
(1)描述性元素(Descriptive Elements),即对数据对象的基本内容特征进行描述的元素,例如标题、作者等。
(2)技术性元素(Technical Elements),即对数据对象制作、传递、使用或保存过程中的技术条件或参数进行描述的元素,例如扫描分辨率、压缩方法、使用软件等。
(3)管理性元素(Administrative Elements),即对数据对象元数据本身进行管理的要求,规格和控制机制进行描述的元素,例如有效期、使用权限等。
(4)重用元素(Reused Elements),指该元数据集从其他元数据集中重用的元素,有可能需要对其语义范围和编码规则进行修订。
内容结构定义中,需要进一步规定元素的选取使用规则,例如是必备型元素还是可选型元素、可否重复、取值基数、选择规则、子元素组成等。
2.元数据句法结构
元数据句法结构定义元数据的格式结构及其描述方式:
(1)元素的分区分层分段组织结构,例如分成头标区、目次区和数字段区。
(2)元素结构描述方法,一般用XML DTD、XML Schema、RDF等来定义。
(3)元数据重用方式,例如通过名称空间(namespace)链接相关DTD、Ontology或内容范围。
句法结构还可定义元数据与被描述数据对象的绑定方式:
(1)元数据与数据对象绑定在一起(例如在HTML HEAD中标记、作为数据对象的一部分等)。
(2)元数据独立于数据对象存在。
(3)元数据虽然作为单独数据存在,但以一定形式与数据对象链接。
3.元数据语义结构
语义结构定义元素语义的具体描述方法,包括三个层次:
1)元素定义
元素定义是对元素本身有关属性进行明确定义,一般采用ISO 11179标准:
ISO11179: Specification and Standardization of Data Elements
ftp://sdct-sunsrv.ncsl.nist.gov/x318/11179/
该标准规定,通过以下10个属性来界定任何元素:
①Name,元素名称。
②Identifier,元素标识。
③Version,版本(采用该元素的元数据的元数据版本)。
④Registration Authority,注册机构。
⑤Language,描述元素本身的语言(不是元素内容语言)。
⑥Definition,定义。
⑦Obligation,约束。
⑧Datatype,数据类型。
⑨Maximum Occurrence,最高出现次数。
⑩Comment,注释。
例如: Dublin Core对元素Title的定义形式如下:
Name: Title
Identifier: Title
Version: 1.1
Registration Authority: Dublin Core Metadata Initiative
Language: en
Definition: A name given to the resource.
Obligation: Optional
Datatype: Character String
Maximum Occurrence: Unlimited
Comment: Typically,a Title will be a name by which the resource is formally known.
在许多元数据集中,各个元素的某些属性取值完全一致,例如Dublin Core在版本、注册机构、语言、约束、最高出现次数等属性上取值一致。
在实际元数据记录中,一般通过XML Namespace链接定义文件,例如:﹤rdf:RDFxmlns:rdf=〃http://www.w3.org/1999/02/22-rdf-syntaxns#〃
xm lns:dc=〃http://purl.org/dc/elements/1.0/〃>
﹤dc:title﹥Guidance on expressing the Dublin Core within the
Resource Description Framework﹤dc:title﹥
……﹤/rdf﹥
2)元素内容编码规则定义
内容编码规则确定在描述元素内容时应该采用的编码规则。内容编码规则可以是特定标准,或是最佳实践(Best Practices),或是自定义的描述要求(Instructions)。为了准确使用元数据,应该在定义元素时明确定义相应的编码规则,例如日期编码采用ISO 8601、资源类型编码采用Dublin Core Types、数据格式编码可采用M IME、识别号采用URI。
3)元素语义概念关系
元素本身的语义实际上已经在元素定义中予以描述,但这些元素并不是孤立存在的,而且这些元素可能在不同的领域有不同的含义,例如Title在文献领域是文献标题,在社交领域则是人的职衔。因此,需要把元素放在一个概念体系中来说明它的语境(Context),说明它与其他概念的关系。
可利用RDF/RDFS技术来定义元素概念的类属关系,通过XML Namespace技术将元素与相应的语义定义、语义网络和语义概念集(Ontologies)链接起来,从而支持对元素语义及语义关系的进一步解析。这种链接还可支持元数据互操作和元数据挖掘过程。
4)元数据版本管理
元数据是动态变化的,因此必须明确描述元数据版本变化情况,并通过开放注册系统发布。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。