3.3.3 元数据组织法[25]
元数据组织法指对信息元素及其集合进行规范描述从而形成元数据,并依据元数据将分布式的信息资源整合成有机知识体系的组织方法。
1.元数据概述
元数据是用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系的一整套编码体系。计算机科学家们为了解决网络资源无序化的问题,提出了元数据的概念。由于网络信息资源内容的不断丰富,迫切地需要一种组织和寻找Internet资源的方法。基于站点内容的全文标引方法在存取资源效率和效果上都不能让人满意。而元数据组织法则使信息资源具有“自我描述”的能力,它借鉴了图书馆情报人员处理图书资料的方法,在信息资源上添加一组标记来描述该信息的作者、关键词等特征,即一组描述数据对象本身内容和位置(联系)的数据元素集。元数据既是一种对数字化信息进行组织处理的数据结构标准,同时也是面向某种特定应用的机器可识别、可理解的知识体系[26]。
信息和知识组织中常用的元数据体系有Dublin Core、MARC、CORC系统等,其中Dublin Core(DC,国内称为都柏林核心)是目前广泛应用的电子信息资源元数据模式。
2.元数据的知识组织功能
元数据的应用将促进知识组织和知识检索技术的发展,具体来说,它有以下功能[27]:
(1)知识描述
根据元数据的定义,它最基本的功能是对信息对象的内容和位置进行描述,从而为信息对象的存贮与利用奠定了基础。就网络信息资源利用方面来说,人们往往是先从庞杂的网络信息资源数据中获取有用信息,再理解其中的逻辑关系或模式形成知识。这是一个增值的过程。其过程中所采取的方式,除了与网络信息资源的形式特征有关外,最根本的依据还是描述网络信息资源的元数据。所以说,人们通过规范的元数据,可以合理地描述与揭示网络信息资源的内涵,由网络机器人对元数据进行标引和分类,再适当进行知识组织,将其添加到相关智能搜索引擎数据库中,形成了基于特定目的的检索机制。人们通过具有一定智能性的检索工具,可以十分容易地获取有关知识。目前作为标记模式的SGML,就能很好地标记数据本体内部的关系编码,作为发展趋势它将被大量地运用到基于人工智能的数据挖掘和知识检索系统中。
(2)知识定位
元数据包含有关网络信息资源位置方面的信息。由此便可确定资源的位置。促进网络环境中信息的发现与检索。元数据可以很好地组织与反映网络信息资源中的知识元素与知识关联,特别是在知识关联上。目前,网上一些专业信息资源库的建设就是基于此项功能。指引库大体由3个部分组成:一是反映网络资源信息的网址(URL)的元数据;二是反映原始信息的元数据集合;三是以元数据为基础的信息组织与查询的检索软件。
(3)语义搜索
元数据提供语义搜索的基础。在著录的过程中,将信息对象中的重要信息取出,加以抽象描述,并建立其语义关系,将使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。目前,网上基于概念的智能搜索就是采用这种原理。这种基于概念的智能搜索与传统搜索的最大区别在于:它在用户与网络信息资源之间创建了一个知识库。这个知识库实质上就是一个元数据的集合,其中的知识语义网络可粗略分为3个层面:①语言层,反映语言表面现象的知识,如一个词的多语种(中、英)形式,它的同义词、反义词,一些习惯用语、词的层次关系等;②本体层,对概念的本体定义与解释,概念之间复杂的语义关系;③常识层,如随身听与磁带、香烟与打火机等存在着常识上的关联。当然,上述3个层面的知识是很难截然分开的。
(4)知识评估
元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本的了解与认识。参照有关标准,即可对其价值进行必要的评估,作为存取与利用的参考。这为建立合适的网络信息资源评价体系提供了一个很好的途径。
3.元数据的结构
元数据格式通过多层次的结构予以完整定义,包括内容结构、句法结构和语义结构。其中,内容结构,是对元数据的构成元素及其定义标准进行描述;句法结构是定义元数据整体结构以及如何描述这种结构;语义结构是定义元数据元素的具体描述方法[28]。
(1)内容结构
内容结构定义了元数据的构成要素,主要包括:
①描述性元素,即对数据对象的基本内容特征进行描述的元素,例如题名、作者;
②技术性元素,即对数据对象制作、传递、使用或保存过程中的技术条件或参数进行描述的元素,例如扫描分辨率、压缩方法、使用软件;
③管理性元素,即对数据对象及元数据本身的管理进行描述的元素,例如有效期限、使用权限;
④复用元素,即该元数据集从其他元数据集中复用的元素,有可能需要对其语义范围和编码规则进行修订。
同时,在内容结构的定义中,需要进一步规定元素的选取使用规则,例如是否必备、是否重复、子元素组成。
通常情况下,人们根据特定应用领域的成熟信息处理框架或标准来决定元数据的内容结构,并在元数据定义中对此进行说明,例如MARC依据ISBD,EAD依据ISBD(G),CEDARS、PANDORA、NEDLIB均依据OATS。
(2)句法结构
句法结构定义了元数据的格式结构及其描述方式:
①元素的分区分层分段组织结构,例如MARC分成头标区、目次区和数据字段区,EAD分为头标段、前面事项段和档案描述段,CEDARS分为保存描述信息和内容信息;
②元素结构描述,一般用XML DTD.XMI,Schema,RDF或SGML DTD来定义;
③元素复用方式,可以通过命名域(namespace)来链接相关DTD,Ontology或内容规范。
句法结构还可定义元数据与被描述数据对象的捆绑方式,包括:
①元数据与数据对象捆绑在一起,例如元数据在HTML HEAD中标记,作为数据对象的一部分;
②元数据独立于数据对象存在,例如MARC;
③元数据作为单独数据存在但以一定形式与数据对象链接,例如通过〈rdf:Resource about=‘URI’〉来链接。
(3)语义结构
语义结构定义了元素语义的具体描述方法,包括三个层次:
①元素定义
所谓元素定义是对元素本身有关属性进行明确定义,一般采用国际标准ISO11179-3,通过以下10个属性来界定元素:
●Name,元素名称;
●Identifier,元素标识;
●Version,版本(采用该元素的元数据版本);
●Registration Authority,登记机构;
●Language,语言(元素本身的语言);
●Definition,定义;
●Obligation,使用约束;
●Datatype,数据类型;
●Maximum Occurrence,最多出现次数;
●Comment,注释。
在很多元数据集中,其元素的某些属性取值完全一致,例如Dublin Core在版本、登记机构、语言、使用约束、最多出现次数属性上取值一致。
在实际元数据记录中,常通过XMI Namespace链接定义文件。
②元素内容编码规则定义
内容编码规则是在描述元素内容时应该采用的编码规则。内容编码规则可以是特定标准,或是最佳实践,或是自定义的描述要求。为了准确使用元数据,应该在定义元素时定义相应的编码规则,例如Dublin Core建议日期内容编码采用ISO 8601,资源类型编码采用DCMIType、媒体格式编码采用IMT、标识符采用URI、主题词可使用LCSH、MESH、DDC、UDC以及LCC。
元数据定义时可能允许一个元素使用多个编码规则,例如前述Dublin Core的主题元素。但具体单位进行元数据标引时则必须从格式允许的多种编码规则中选取一种或几种作为实施标准,甚至从格式没有明确指出的其他编码规则中选择(例如在中国应用Dublin Core时主题可采用《汉语主题词表》、《中国图书馆分类法》),这时的实施规定被称为应用规范。
③元素语义及关系定义
元素本身的语义实际上已经在元素定义中予以了描述,但这些元素并不是孤立存在的,而且这些元素(就其名称而言)可能在不同的领域有不同的含义,例如Title在文献领域是文献标题,在社交领域则是人名职衔。因此,需要把元素放在一个概念体系中来说明它的上下文关系,说明它与其他概念的关系。
可利用RDF/RDFS技术来定义元素概念的类属关系,通过XML Namespace技术将元素与相应的语义定义、语义网络和语义概念集链接起来,从而支持对元素语义及语义关系的进一步解析。这种链接还可支持元数据互操作和元数据挖掘过程[29]。
4.Dublin Core
Dublin Core产生于1995年3月在美国俄亥俄州的都柏林召开的第一届元数据研讨会,后历经了7次研讨,逐步形成了稳定的元素集。目前Dublin Core已得到了国际间的广泛承认,是世界上使用最广泛的元数据格式,具有最强的适应性和最大的弹性。DublinCore元数据元素集1.1版本已成为ISO15836、美国国家信息标准Z39.85以及其他多个国家标准。
Dublin Core的主要特点包括:
●简单明了:Dublin Core能够同时为非专业编目人员以及资源描述专家所用。大部分元素的语义都能够被普遍理解。
●语义互用性:各个描述模型都涉及跨领域检索的能力。Dublin Core有助于统一其他内容标准和描述符集合,提高了跨学科领域语义交互操作的可能性。
●国际认同:Dublin Core得益于北美、欧洲、澳大利亚和亚洲20多个国家的参与和推动,获得了Web资源发现界的认同。
●可扩展性:Dublin Core提供了较为经济的资源描述模型,并具备灵活性和可扩展性,从而适应为更丰富的资源标准内部的结构和更详细描述的语义编码。
都柏林核心元数据元素集(Dublin Core Metadata Element Set,DCMES)由15个核心元素组成,其中内容描述元素7个,知识产权元素4个,外部属性元素4个。
为了进一步描述资源的详细特征,DCMI提出了Dublin Core内容元数据限制属性的概念,通过这些限制属性来对内容元素的某一特别子类进行描述,或者对描述元素内容时采用的内容编码规则进行描述[30]。Dublin Core限定需要遵循“向上兼容”(dump-down)的原则,即修饰词的语义包含于未修饰词中,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸。
●元素限定词:缩小元素含义范围,使其更具有专指性。被此类修饰词限定的元素与此元素未被修饰时具有同样的含义,但含义范围被限定了。一个不理解特定元素修饰词含义的用户,可以忽略该修饰词,在未修饰的(更宽泛的)元素含义中来处理元素值。
●编码体系:说明元素值所属的编码体系,有助于说明元素值的含义。这类体系包括控制词表及正式的符号体系或解析规则,用某一编码体系表示元素值就意味着该值或者是来自某一控制词表的语义符号,或者是格式符合某种正式编码标准的字符串。
Dublin Core元数据元素、元素限定和编码体系见表3-2[31]。
表3-2 Dublin Core的元素、元素限定和编码体系
续表
续表
5.企业财务决策中的元数据组织法应用[32]
通过元数据,可实现知识组织体系的开放描述和智能处理,支持对分布和异构的知识组织的搜寻、析取、交换、集成和定制,支持利用知识组织智能地检索、解释、推理和析取知识内容,支持利用知识组织智能地选择、链接、定制和组合信息服务过程与管理机制。以企业财务信息资源为例,企业由于会计和管理信息化的实现,累积了大量的财会信息资源。这些资源要得到充分利用,需要建立数据仓库,并运用各种工具进行数据挖掘,以期实现财务分析和财务决策支持,在这样一个逐步深化的知识化过程中,建立适合财务决策和分析的元数据体系是至关重要的。通过元数据组织方法不仅能够较为准确地描述财务信息中的原始数据或主体内容,而且能够实现财务信息资源的发现,即实现计算机网络定位、自动辨析、分解、提取等功能,从而将财务信息资源从无序状态变为有序状态。
元数据在财务决策中主要的作用有以下两个方面:
(1)为财务决策人员使用数据仓库的数据提供便利。财务决策人员在进行财务决策时,需要从数据仓库中检索和获取大量的为决策所需要的各种数据和信息。元数据体系的建立,可以帮助财务决策人员更快、更精确地找到他们所需要的数据和信息。
(2)元数据架起了企业业务系统的应用型数据、财务分析和财务决策支持系统之间的桥梁。企业业务系统在日常业务中采集各种业务信息,同时也生产了各种决策和分析所需要的信息,但是业务应用系统主要是为了业务管理的需要而建立的,将这些数据转化为数据仓库所存储的信息十分复杂,元数据在这个转换过程中起了非常重要的作用。即将数据根据元数据所表示的主题词进行重新组合和转换。
按照所描述的数据属性的不同,企业财务决策中的元数据大致可以按图3-1中所示方式进行分类。
图3-1 企业财务决策中元数据的类型
其中:
●名称类:定义数据的名称;
●描述类:对数据进行说明;
●格式类:定义数据的格式类型;
●数据结构类:说明数据的结构类型;
●关系类:定义数据与其他数据的关系;
●域类:定义数据的允许值;
●业务规则类:定义数据在业务处理时应遵循的规则;
●数据质量类:描述数据的精确程度;
●统计信息类:用于统计信息访问情况;
●状态类:用于跟踪数据的运行情况;
●处理类:描述数据使用和管理的方法。
财务决策人员可以使用上述元数据很方便地从数据仓库中找到所需要的数据,组成数据集市,使用各种应用工具达到财务决策分析的目标,如使用各种联机分析(OLAP)工具或进行数据挖掘。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。