3.1 本体概述
3.1.1 本体的分类
知识系统中存在不同种类的本体,根据不同的分类标准,可以将本体分成不同的种类。Mizoguchi等人[2]根据语境相关和语境无关的分类标准将本体分为:领域本体、常识本体、元本体和任务本体。而Van Heijst等人[3]则将本体按概念结构的数量和类型及概念的主题两个维度来分类。若按第一个维度来分,本体可分为:术语本体、信息本体和知识建模本体;若按第二个维度来分,本体又可分为:应用本体、领域本体、通用本体和表示本体。综合上述有关本体的分类结果,知识系统的较常用的本体类型有[4]:
(1)知识表示本体(Knowledge Representation ontolotgies)
获取用于基于框架语言的表示原语,这些原语包括类、子类、属性、属性值、关系和公理。典型的例子是Ontoligua项目中的Frame-Ontology。
(2)通用本体(General ontologies)
包含与事物、事件、时间、空间、因果关系、行为、功能等相关的词汇。典型的通用本体是CYC本体。
(3)顶级本体(Top-Level ontologies/Upper Level ontologies
包含可以被其他本体使用的通用概念。例如,Sowa’s boolean lattice PANGLOSS、Penman Upper Level、CYC、Mikrokosmos、Guarino’s top level proposal。
(4)领域本体(Domain ontologies)
给定与一个领域的概念、概念之间的关系、原理和基本法则有关的词汇。本研究中所构建的农学本体就属于这种本体。
(5)任务本体(Task ontologies)
提供用于解决某一特定任务的术语,这个任务可以是领域无关的,也可以是领域有关的。
(6)领域——任务本体(Domain—Task ontologies)
只能在一个给定领域重用的任务本体。
(7)方法本体(Method ontologies)
为完成某一特定任务的具体推理过程所用到的概念及概念之间的关系提供定义。方法本体和领域本体通常用来定义PSM (problem-solving methods)。
(8)应用本体(Application ontologies)
包含一个特定应用系统建模的必要知识。
(9)元本体(Meta—ontologies)
元本体也被称为类本体(Generic ontologies)或者核心本体(Core ontologies)。它定义了“part-of”关系和其上的属性,这个关系可以用来说明一个装置上的各种组件的集合,每个组件又可分解成子组件。元本体可以在不同的领域中被重用。
图3-1 本体的分类图[4]
3.1.2 本体的描述语言
本体描述语言是用特定的形式化语言对本体模型进行描述,使得机器和用户都能达到统一的理解。现有本体表示语言可以分为两类,一类是基于一阶谓词逻辑的,如框架逻辑(Frame-logic)等。第二类基于XML标准的、W3C推荐的本体语言,这些语言主要包括:XML、RDF/RDFS、DAML+OIL、OWL等。
1.XML[5][6]
XML是严格符合SGML的结构化语言,其实现了文档的显示和数据分离,这种结构化的数据易于使用、携带和传递,是Web数据交换的较好的语法格式。XML提供DTD、XML Schema对文档结构进行有效性验证,通过描述/约束文档逻辑结构实现数据的语义。XML对本体的描述,就是利用DTD或XML Schema对本体所表达的领域知识进行结构化定义,然后再利用XML文档结构与XML内容之间的关系对本体知识进行描述,从而提供对数据内容的语义描述。
但是DTD自身描述能力、数据类型的支持、约束定义的能力是有限的,无法对XML实例文档做出更细致的语义限制。因此,通过DTD表示的本体,无法表达概念间的继承关系,XML Schema虽然解决了DTD存在的问题,例如定义了更为丰富的语法结构、可以定义元素类型、提供了包含和继承机制等,但是DTD、XML Schema为XML文档提供的约束机制只是用限定XML文档所用到的标记和这些标记之间的结构关系,通过DTD和XML Schema可以解决对数据的词汇和用途的说明,其语义仍然是隐含的。因此,XML所表示的本体是轻量级的本体,只能保证人们是用相同的词汇,是一种较低层次的本体的应用,本体中不包含语义信息。
2.RDF和RDFS[7][8]
W3C的资源描述框架(Resource Description Framework,RDF)为基于元数据的语义表示提供了基础,RDF为在Web上应用系统间进行机器可理解的信息交换提供了互操作能力。
RDF对资源描述基于如下思想:利用当前现有的Web体系结构中的标识符URIs作为标识符系统来标识事物,用简单的属性(Property)以及属性值(Value)来声明资源(Resource),这里的资源指Web上任何可以被标识的事物,可以创建URIs来引用声明中需要被标识的任何资源,例如,一份电子文档、一个图片、一个声音文件等网络可访问资源;或者如人、公司、图书馆中的图书等非网络可访问资源;或者如“作者”、“主席”这样非物理存在的抽象概念。
RDF的基本构造为陈述(或者叫做声明,statement)了一个资源—资源具有的属性—属性值(主体—属性—客体)的三元组。它表现的是一个数据模型,通俗地说一个陈述就是一个什么事物(资源)具有什么属性(属性),这个属性是怎样的属性(属性值)。为数据模型提供了简单的语义,这些数据模型能够用XML语法进行表达。例如:描述“中国农业遗产研究室位于南京”,用RDF图来表示为:
图3-2 RDF三元组示意图
采用RDF语法表示为:
但是,RDF只是提供了一个用于领域无关的机制来描述元数据,描述资源属性及其相关关系,没有提供按照类的机制描述信息资源、声明属性、描述属性语义及其与资源之间的关系。也就是说RDF不能描述领域相关的语义关系,如同义词、一词多义等,因此,提出了RDFS。
RDFS是RDF的扩展,在RDF基础上增加了许多语义原语。提供了一种机制来定义相关领域的资源的属性、类型及其关系,用来更进一步增加对资源的描述能力。如,核心类rdfs:Resource、rdfs:Property、rdfs:Class;核心特性rdf:Type、rdfs:subClassOf、rdfs:subPropertyOf;核心约束rdfs:ConstraintResource、rdfs:ConstraintProperty、rdfs:domain、rdfs:range。
RDFS虽然提供了简单的机器可理解语义模型,解决了RDF中存在的一些问题,如属性、概念间的继承关系,但是对语义描述的深度仍然不够,只是进一步提高了计算机处理的自动化程度,还无法表达概念间的合取、析取、不相关等关系。在RDFS建模的基础上,针对RDFS在语义方面表示的不足,一些研究团体提出了其他的本体表示语言XOL、OIL、DAML,在此基础上,W3C发布了Web标准本体表示语言OWL,在机器间实现本体的共享和重用,实现对Web信息的智能化处理。
3.OWL[9][10]
OWL全称Web Ontology Language,是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的,其中DAML来自美国的提案DAML-ONT,OIL来自欧洲的一种本体描述语言。在W3C提出的本体语言栈中,OWL处于最上层。
OWL能够清晰地表达词汇表中的词条(term)的含义以及这些词条之间的关系。而这种对词条和它们之间的关系的表达就称作Ontology。OWL相对XML、RDF和RDFSchema拥有更多的机制来表达语义,从而OWL超越了XML、RDF和RDFSchema仅仅能够表达网上机器可读的文档内容的能力。和XML Schema相比,OWL语言是知识表示,不是信息表示格式;和RDFS相比,OWL不仅可以用更复杂的方法描述类,如disjoint,而且扩展了RDFS属性,允许表示属性的transitive、symmetric以及functional性质,表达了更强的概念语义信息,支持描述逻辑推理。OWL语言提供了三种表达能力不同的子语言OWL Lite、OWL DL、OWL Full,分别满足不同的需要,见下表简要描述。
表3-1 OWL的三个子语言描述
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。