首页 理论教育 叙词本体构建的理论基础

叙词本体构建的理论基础

时间:2023-02-26 理论教育 版权反馈
【摘要】:尽管如此,叙词本体的构建,仍可以借鉴相关学科的理论知识和实践成果,来科学地指导叙词本体的构建过程。叙词本体建模所必需的理论知识基础包括:叙词表的编制理论、软件工程中的领域建模理论、图书馆学中的分类学和本体论等。
叙词本体构建的理论基础_多语种叙词本体

4.1 叙词本体构建的理论基础

关于叙词本体构建的方法,由于基于本体技术构建的特殊性和特定领域叙词本体的需求不同,致使构建叙词本体的过程也各不相同。直至目前,对于叙词本体的构建,尚没有一套标准的体系结构方法和规范性指南。尽管如此,叙词本体的构建,仍可以借鉴相关学科的理论知识和实践成果,来科学地指导叙词本体的构建过程。叙词本体建模所必需的理论知识基础包括:叙词表的编制理论、软件工程中的领域建模理论、图书馆学中的分类学和本体论等。

4.1.1 叙词表的编制

叙词本体是叙词表的进一步发展。从叙词表的发展看,早期的叙词表采用的是传统的纸质版本形式,随后在计算机软件与数据技术的支持下出现了电子版本,之后又有了网络版本。因为电子版与网络版是直接把叙词表数字化,所以我们可以认为它们仍是同一发展阶段的产物,也可将其称为第一代叙词表。这里将本体作为一种实现技术用于构建叙词表,使得静态的被动维护的传统叙词表具有自动演化学习的功能,从而更好地为知识组织和检索服务,因此可以把叙词本体看做是第二代叙词表。传统的第一代叙词表可以认为是一种最简单的本体形式,叙词本体作为第二代的叙词表是借助本体所拥有的丰富的语义关系和强大的推理能力,更好地用来描述特定学科知识的组织工具,它必将给叙词表以新的发展方向。

虽然叙词本体构建从技术角度上看,与传统叙词表有实质的区别,但从叙词表的基本观点和原则方法来看,是基本相同的。另外,比较两者呈现给用户的表现形式,叙词本体也是以更为形象具体的电子化的叙词表的外观展现。叙词表自20世纪50年代出现以来,因为其自身的优点,一直到现在都是主题检索的主要语言,应用相当广泛,其范围几乎涵盖社会的各个领域,如美国国会标题表LCSH、医学标题表MeSH、工程和科学词汇叙词表TEST、艺术和建筑叙词表AAT等,叙词表可以说是图书馆情报界为信息检索提供的知识财富。叙词表经过了长时间的实践经验,积累了很多优越的词汇控制、表达、语义关联等方法。因此在构建理论和规范上,叙词本体的构建需要参照传统叙词表的编制过程,充分利用已有的编表成果。叙词表的编制一般包括总体设计、选词、对词汇进行处理、编表、审核和试标引、出版等步骤。在构建叙词本体时,也应符合叙词表的构建原则及特点,遵照相应的国际标准和国家标准,保证其专业性、实用性、完备性和兼容性问题,使叙词本体成为由语义相关、族性相关的术语组成的一种规范化的动态词表。

4.1.2 软件工程相关理论

何琳等学者在《领域本体的半自动构建方法研究》论文中曾定义领域需求分析,并且给出了构建领域模型的过程。其中他们认为领域需求分析是软件工程中对某领域需求进行获取、分类以及分析,采用统一知识组织形式表达,使之成为领域内各方面人员普遍接受的规范,是有效地消除通信鸿沟的过程。在构建领域模型中,需要明确软件系统中所要描述的对象和操作,对它们进行分类,抽取共同特征建立类模型,获取领域概念和关系,确认组件以执行领域模型中定义的类属功能。这与叙词本体的构建流程极为相似,因此可以将领域模型看成是一个比较专指的范围狭窄的叙词本体。因此在叙词本体构建中可以借鉴构建领域模型中的方法论。

学者陈建在论文《领域本体的创建和应用研究》中指出工程思想的核心有两点:标准化的表达方式和规范化的工作步骤。与一般的软件相比,本体更强调共享、重用,它的出现就是为了给不同系统间提供一种统一的语义集成,因此它的工程性更为明显。目前本体工程这个思路虽然已经被大家所接受,但是并没有出现成熟的方法论作为支持。叙词本体的建立基本还是采用人工或半自动化的方式,叙词本体的构建远远还没有成为一种工程性的活动,每个叙词本体开发团队都有自己的构建原则、设计标准和不同的开发阶段,到目前为止还没有统一的构建原则作为指导,整个构建过程难以进行规范的管理,所以在一定程度上给本体的共享、重用和互操作带来了困难。某些叙词本体的构建需求分析不够充分,构建过程缺乏计划性和控制性。在叙词本体的评价方面,没有统一的标准,这必然影响叙词本体的应用和进一步的发展。因此,借鉴软件工程多年发展的成果,反软件工程思想引入叙词本体的构建过程,能够使构建的叙词本体表示的更加规范,可以为叙词本体构建提供一套可借鉴的、科学的工程化指导,这对叙词本体的复用有着极大的促进作用。

4.1.3 分类法

叙词本体中概念及概念之间的关系是一个相对比较完整的分类体系,其中的实例则是关于领域内某一概念分类的具体实现,它们聚集在该概念分类之下,相当于关键词或主题词的作用。因此可以说,叙词与本体的结合,更好地实现了分类法与主题法的一体化,即由概念以及概念之间的关系形成分类体系,概念的实例形成词表。正如1962年第二次国际分类法会议上指出的“分类法是一种在众多单个语义单位之间建立属种或其他联系的方法”。从某种程度上说,分类表是一个缩减的本体。分类法以知识门类的层次划分、以代码为标识来解释和组织信息,它按照学科或体系范畴,依据类别特征组织排列信息,符合人类正常的思维习惯。叙词本体与分类表、叙词表有着千丝万缕的联系。

国内外专家对此方面都有不少的研究,其中国内学者侯汉清利用图书情报机构的标引数据,采用统计方法发现分类号和主题词关系自动构建知识库,为叙词本体构建提供了参考方法。国外学者Ruben Prieto-Diaz在本体的构建中引入分面分类法对本体类层次进行组织,取得了不错的效果。因此,图书馆学领域编制体系分类法、分面分类法以及分面叙词表、分类主题一体化词表等所积累的大量成功技术和模式,可供叙词本体构建所借鉴。

一个成熟的分类表可以帮助我们在构建叙词本体时选择概念及表述概念之间的关系,并判断概念之间、信息资源之间的相关性。需要注意的是,将现存叙词表转化为叙词本体,并不意味着仅仅在词表中增加更多类和子类,还应该详细地列出这些类之间的关系,通过本体技术来丰富这些词语的概念描述。考虑到叙词本体表达概念的语义清晰性,必要时可参考多个词表。

4.1.4 本体论

目前,本体论的理论研究包括本体构建、本体映射、本体进化和本体评估等方面。在构建理论上,叙词本体采用本体模型,以提高概念语义描述的精确性;在功能上加入智能,使静态的叙词表发展到动态的叙词本体,使原来的被动维护状态发展成具有主动学习演化功能的状态。鉴于这几方面的发展,由于采用的模型及管理技术都来自本体,叙词本体是具有本体功用的叙词表,是利用本体的组织模型与管理技术构建的叙词表,它同时具有叙词表和本体两者的优点。因此可以用本体论的理论研究成果来指导叙词本体的构建。

传统的叙词表是用书本式的词表标引和检索书本式的文献。网络出现以后,文献扩展到网络信息资源,叙词表的应用相应的扩展为用电子化词表标引和检索书本文献以及用书本式词表标引和检索网络的信息资源。叙词表的应用步入了网络时代,构建过程中也出现了一些相应问题。如新词和新概念的不断产生和更新滞后性的矛盾,分面规则过于负责而损害了叙词表的易用性等。这些问题都严重影响了叙词表的应用效能。叙词表的编制过程复杂,耗费人力、物力,耗时长且成本高。本体学习与本体演化的技术为叙词表的演化提供了一种良好的解决思路,使得叙词表能够跟上学科的发展,实现扩充与更新的自动化。

另外,本体作为一种新的信息组织方式,能够比较清晰明确并能形式化的表现信息。本体研究促使我们显性地表示出领域知识和领域假设。领域知识包括领域概念、概念的性质,概念之间的关系、概念之间的一般规律等。领域本体的研究要求我们根据概念之间的类属关系显式地建立概念之间的联系,明确定义概念所具有的属性、属性的取值约束、处理过程、概念之间的关系等。领域本体还要求明确定义出概念内部或者概念之间的公理,以表示领域内的一般假设或者规律。领域本体的研究使得在人看来一目了然的概念和概念之间的关系加以形式化的描述,使概念之间的各种规律、联系和假设等都被显式地描述出来,这有利于全面地获取和分析并利用知识。因此通过应用本体相关理论,来辅助叙词表的构建有利于词表编制者更加方便高效地进行编制、修订与管理,从而推动了叙词表的发展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈