2.1 本体起源及发展历程
2.1.1 本体起源
本体(Ontology)的概念最初起源于哲学领域。作为一种哲学理念和哲学形态的“Ontology”,产生于苏格拉底提出的“始基”问题,其后由柏拉图和亚里士多德奠定了它的基础,最终在中世纪经院哲学中得以成熟。而直到17世纪,德意志哲学家郭克兰纽(R.Goclenius)才首次提出“Ontology”一词。
古希腊哲学家亚里士多德(公元前384—前322)将本体在哲学中定义为“对世界上客观存在物的系统描述,即存在论”,又把它分为两个方面:一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。意大利中世纪经院派哲学家圣托马斯(1226—1274)所说:“通过把物质抽象为观念来理解物质,然后,用这样的知识来获取非物质的知识”。可以看出,本体是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。《牛津现代高级英汉双解词典》(简化汉字本)对于“Ontology”的英文解释是:“the depart-ment ofmetaphysics concerned with nature of existence; specific theory of this”。从词源来看,英文的“Ontology”最早来自拉丁文“Ontologia”一词,而拉丁文又源自希腊文。就希腊文的字面意思来说,“本体”的英文单词“Ontolog”由拉丁文ontos(存在)与logos(学说、言论)派生而来,被解释为“关于存在的学说言论”。由于ontology最先在哲学领域出现,所以在英汉词典中把Ontology翻译成“本体论、实体论”。近年来国外人工智能领域首先借用哲学Ontology概念拓展知识表示方面的研究,并据此来开发新型的知识表示理论和技术。“Ontology”在汉语中也有不同的译名,如“万有论”、“存有论”、“本体论”、“存在论”等,其中以“本体论”流传最广。从哲学的角度出发,世界是具有可感形态,具有元本体、元实体和元分体的具体事物组成的统一体。本书所论的本体就是将哲学中所说的原本体应用在人工智能等信息领域。具体应用领域包括人工智能、知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,本体在进行知识的表示和组织方面表现出极大的优势。
由于本体在不同领域各有自己的不同含义,斯坦福大学的Guarino与Giaretta建议用Ontology(首字母大写)指代哲学领域的本体论研究,用ontology(首字母小写)来表示人工智能等领域的本体系统和本体理论的研究。本书在使用“ontology”这一英文术语时亦遵循这一惯例。
2.1.2 本体的概念
2.1.2.1 国外学者观点
在计算机人工智能界,最早给出本体定义的是Neches,Fikes等人(1991),他们将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则”(An ontology defines the basic terms and relations comprising the vocabulary of a topic area,as well as the rules for combining terms and relations to define extensions to the vocabulary)。
后来在信息系统、知识系统等领域,越来越多的人研究ontology,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber在1993年提出的,也是比较简单的定义——“a specification of a conceptualization”,可以理解为“对某种概念化体系的规范说明”。这里有两层意义:一是先要对某个领域进行抽象、归纳,即把这一领域概念化;二是再对这一概念化的结果用一种人、计算机、代理都可以理解的通用规范表达出来,表达出来后就形成了一个ontology。后来,Gruber提出了另一种比较详细的表达:“explicit formal specifications of the terms in the domain and relations among them”,即“本体是概念化的明确的规范说明”。和这个定义类似的有N.Guarino和P.Giaretta(1995)提出的“本体是概念化的明确的部分的说明/一种逻辑语言的模型”(An ontology is an explicit,partial accountof a conceptualization/ the intendedmodels of a logical language)。
Borst等学者在Gruber所做定义的基础上作了些许修正,给出了ontology的另外一种定义:“ontology是共享概念模型的形式化的规范说明”(It is an explicit formal specification of a shared conceptualization)。
德国卡尔斯鲁厄大学的Studer等学者对Gruber和Borst的两个定义进行了深入的研究,认为“ontology是共享概念模型的明确的形式化规范说明”。这包含四层含义:
①概念化(conceptualization):客观世界中某些现象的一个抽象模式,该模式是通过定义了这些现象的相关概念形成的,其表示的含义独立于具体的环境状态;
②明确(explicit):使用的概念,以及在使用这些概念时所受的约束和限制等,都有明确的定义;
③形式化(formal):指ontology能被计算机识别和处理;
④共享(share):指ontology中体现的是相关领域中获得普遍认可的概念的集合,它针对的是团体而非个体。
Nicola Guarino把概念化定义为: C=〈D,W,R〉,其中D是一个领域,W是该领域中相关的事务状态(state of affairs)的集合,R是领域空间〈D,W〉上概念关系(conceptual relation)的集合,本体是采用某种语言对概念化的描述。
ontology的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。
当前本体是图书馆情报领域研究的热点,在此领域对本体的定义基本上跟人工智能领域的定义等同。人工智能领域的文献中有很多有关本体的定义,这些定义在本质上基本没有什么区别。例如:斯坦福大学的Natalya F.Noy和Deborah L.McGuinness对本体的定义:“本体就是关于某一领域概念的明确规范的描述”(an ontology is a formal explicit description of concepts in a domain)。它包含以下几点:
①类(classes(有时也称作概念concepts))也就是概念集。
②属性(slots(有时也称作roles或attributes)),概念的属性(properties),用以描述每个概念的有关特征。
③属性的限制条件(restrictions( facets,有时也称作role restrictions或constraints))。
④一个完整的本体还包括一系列与某些类相关的实例(instances),这些实例组成了一个知识库(Knowledge Base)。
本体定义的发展如表2-1所示。
表2-1 本体的定义演化表
续表
2.1.2.2 国内学者观点
近十年来,“ontology”在中文文献中的译名并没有一个统一的定论,在不同的文献中表现均有所不同。在绝大多数文献中,“ontology”被译作“本体论”或“存在论”,这主要是因为受到传统的哲学界对“Ontology”译名的影响。但是大多数文章将“ontology”直接译作“本体”。
在哲学领域,中国社会科学院哲学研究所杨学功在对“Ontology”的研究过程中,产生了自己独到的见解。他不主张将“Ontology”译作“本体论”,也不把它作为哲学的一个分支来看待,而是把它作为一种特殊的哲学理论形态来看待。他认为:“作为一种特殊的哲学理论形态,Ontology是以追求终极实在为依归,以奠定知识基础为任务,以达到终极解释为目标的哲学。”此种表述简洁有力,表现了哲学中本体的核心思想,也可作为其他领域对本体研究的一种参考。
在图书情报和人工智能领域,对本体的研究如火如荼,关于本体的理解和定义也是仁者见仁,智者见智,各个定义都表达出了该学科领域对本体的理解。
李景和陈平在《叙词表与本体的区别与联系》一文中认为:“本体是一个关于一些主题的清晰规范的说明。它是一个规范的、已经得到公认的描述,它包含词表(或称名称表、术语表),词表中的术语全是与某一学科领域相关的,词表中的逻辑声明全部是用来描述那些术语的含义和术语间的(它们是怎样和其他术语相关联的)。因此,ontology提供了一个用来表达和交流某些主题知识的词表,还包括一个关系集,关系集把握着词表中这些术语间的联系。”
张晓林博士等在《描述知识组织体系的元数据》一文中称“ontology”为“概念集”。他提道:“所谓概念集(Ontologies)指特定领域公认的关于该领域的对象(实际对象和逻辑对象)及其关系的概念化表述,包含以下部分:
①本领域对象类的等级体系;
②对象类的属性及属性取值限制;
③语义关系体系,即对象类之间的逻辑关系体系;
④关于对象类及语义关系体系的推理规则。
概念集通过一个语言标记后成为显性知识,可在信息系统中表征和交换知识,并可被代理系统自动解析和识别。”
浙江大学人工智能研究所的刘柏嵩先生和高济教授在《基于RDF的异构信息语义集成研究》一文中使用了“概念模型”(Conceptual Model)来表达本体的含义。他们说:“CM(Conceptual Model)由一个类(概念)层次和类属性以及一组符合有关类或其属性的公理的规则组成。因此通过在检索到的事实组上应用这些规则,可能推理出新的事实。规则可用F-LOGIC来表达……基于可性的原因,为所有可能应用维护一个全局CM(本体)不可取。”
武汉大学的张玉峰教授等在《动态约束性概念网络与知识检索研究》一文中指出,概念网络是知识检索的基础,“概念网络中的每个节点均反映唯一的知识内容,采用若干属性的元组来表示”。在她所说的概念网络中,“每一概念类都具有层次分明的概念树状关系,形成概念网络中的主关联……通过概念分类形成了一定的概念层次划分。概念类不同,但概念层次相同的概念节点可以根据自身属性或内容相互连接成关联网络。从而有效地揭示概念节点间的各种相关关系,构成概念网络中的辅关联。”按照她的表述,文中的“概念网络”实质上就是本体。
通过对国内外学者各种观点的总结,笔者认为,虽然目前关于本体的定义有多种表述,但是对于表述其核心思想的必要元素,在其定义中都应该有所表现。综合以上观点,笔者得出以下对本体的定义:
本体是关于某一领域的、关系明确的规范说明。它作为一种形式化的知识表示体系应该得到公众的认可,包含词表和逻辑声明两部分。词表中的术语应该是全部与某一学科领域相关,能对该学科领域作详细表述,逻辑声明是用来描述术语的含义或术语间的关系。
基于这两个部分,我们可以看出,本体提供了一个词表和词间关系的集合,以此来表达和交流某些学科与主题知识。
2.1.3 本体研究概述
2.1.3.1 国外研究现状
1.W3C
W3C(World Wide Web Consortium)中文翻译为“万维网联盟”。W3C是一个关于信息、商业、通信和共识的非营利性组织,像HTML、XHTML、CSS、XML的标准就是由W3C来定制。W3C是专门致力于创建Web相关技术标准并促进Web向更深、更广发展的国际组织。
2000年12月18日,在XML2000的会议上,Berners-Lee正式提出语义网(Semantic Web)的概念。语义网的目标是将Web上的信息表示成计算机可以理解的语义,满足智能软件代理(Intelligent Agent)对万维网上异构和分布式信息的有效访问和搜索。2001年,Berners-Lee为未来Web的发展提出了基于语义的体系结构,如图2-1所示。该体系从底层到顶层分别是:
第一层: Unicode与URI。该层是整个语义网络的基础,Unicode处理资源的编码,URI负责标识资源。
第二层: XML+ NS+ XML Schema。该层用于表示数据的内容和结构,通过标准的格式语言将网络信息的表现形式、数据结构和内容分离。
第三层: RDF(S)。该层通过语义模型来描述Web上的资源及其类型。
第四层: Ontology vocabulary。定义知识的共享,描述各种信息之间的语义关系,描述各种资源之间的联系。
第五层: Logic。提供公理和推理原则,为智能服务提供基础。
第六层: Proof。提供认证。
第七层: Trust。提供信任机制。
m Berners-Lee的语义网结构图(Semantic Web Architecture)
这七层中第二、三、四层为核心层,用于表示Web信息的语义,第五、六、七层是在下面四层的基础上进行逻辑推理操作。
基于这样的基础,W3C于2001年致力于本体的研究,与对语义网的研究几乎同时起步。主持研究的是Web-ontology工作组,其研究的定位是为语义网的构建打基础。
W3C于2002年7月31日透露了发行OWL语言工作草案的细节,其目的是为了更好地开发语义网。W3C发行的3种工作草案名分别为《特色大纲》(Web Ontology Language(OWL) Guide Version1.0)、《抽象句法》(OWL Ontology Web Language 1.0 Abstract Syntax)和《语言参考》(OWL Web Ontology Language Reference)。
W3C的发言人Ian Jacobs说,开发语义网的目的是为了能够在互联网上进行结构化更强的智能处理。例如,针对现行的交运系统在各自无法达到客户目标的情况下就给不出运营方案,在语义网中可以智能地结合每个交运系统综合给出最优运营方案。
2.AIFB的研究
德国卡尔斯鲁厄大学(University of Karlsruhe)的Rudi Studer、Alexander Maeche,和以他们为主的应用情报学和规范描述方法研究所(AIFB,Institute of Applied Informatics and Formal Description Methods)对本体基础理念(ontology learning)和本体的数学表达进行了深层次的研究。
AIFB的课题研究范围涉及知识管理、知识表示与推理、语义网、本体工程、万维网系统、知识门户、数据和文本挖掘、代理系统、语义标引、机器学习、形式概念分析、办公信息系统、商业过程分析等10余个领域。承担这些项目的研究小组主要是知识管理研究组、商务信息与通信系统研究组和复杂性管理研究组。目前AIFB所从事的重点是基于本体的知识门户和语义门户。
欧洲的OntoWeb就是依托AIFB研究所的OntoWeb项目建立的以知识管理为目的的网上知识门户。OntoWeb的目标是集合欧洲语义网网页标准的研究人员和产业学会的力量,加强该领域的跨学科协作,促进欧洲文化的复兴,保护欧洲语言多元化和欧洲文化多样性,并在本体领域的研究中占据主导地位。现在OntoWeb已经允许国际组织的网络资源语义搜索。OntoWeb系统由两个部分组成:数据库和一个基于本体的搜索引擎,在相关性和时间性上的搜索与当前互联网的搜索引擎相比提高了系统的性能。OntoWeb在基于本体技术的知识共享领域的研究丰富,大体包括:
(1)推动语义网的研究成果产业化;
(2)展示和协调与本体相关各领域的研究,如: Web标记语言、知识查询、知识工程、知识再现、信息系统和数据综合、信息回归、语言工程、数字化图书库、软件代理和可读性学习;
(3)加强欧洲本体研究领域在DAML项目方面与斯坦福大学知识系统实验室的协作;
(4)与W3C的元数据标准语言和推荐标准接轨。
3.KSL的研究
美国斯坦福大学的知识系统实验室(KSL,Knowledge Systems Laboratory),在本体建模工具领域,以及本体应用层面的研究都走在了本体领域的前沿。
KSL的Guarino博士根据整体与部分理论、同一性(Identity)理论和关系理论等哲学理论成果,设计了顶级一层本体。Guarino本体构架的设计特征是根据特殊性(Particulars)和普遍性(Universals)两个角度来设计。特殊性表示具体的实体、事件和物质。普遍性表示具体事件中抽象出的概念、属性、状态和关系等。
KSL对“可复用知识海量存储”的研究是DARPA赞助的快捷知识构造(RKF,Rapid Knowledge Formation)项目的一部分。可复用知识海量存储库的前身是高性能知识库项目(HPKB,High Performance Knowledge Bases)。该项目研究旨在开发支持协同构造和高效利用高度易于重用的分布式本体元库(即综合库,元数据与数据均可存放进去)。
Ontolingua Server作为KSL的许多知识表示项目的服务器,提供了一种分布式协作环境,可以对本体进行浏览、创建、编辑、修改和使用。Chimaera作为对本体进行利用的复杂工具,具备高级合并和知识库清理功能。KSL还创建了包含本体和知识表示方面信息源的网上文库,用于储存并提供下载。
除上述之外,研究基于本体检索加工的学者和机构还有西班牙萨拉戈萨大学的Eduardo Mena和巴斯克大学的Arantza Illarramendii,以及美国佐治亚大学大规模分布式信息系统实验室(Large Scale and Distributed Information Systems,LSDIS)和美国得克萨斯大学计算机系的基于知识系统研究小组(Knowldege-based System Research Group)等。
2.1.3.2 国内的研究现状
国内对于本体论的研究起步较晚,但是由于本体对信息知识领域有着巨大潜力,所以国内的研究也很高涨。比较有影响的有中科院数学所陆汝钤研究员领导的常识知识的实用性研究,中科院计算技术研究所曹存根研究员主持的大规模知识系统的研究,以及中科院数学研究所金芝研究员研究的基于本体的软件需求获取方法等。
(1)常识知识的实用性研究的主要目的是建立一个大规模的常识知识库Pangu,并探讨利用常识知识来解决一些实际问题(如,机器翻译和自然语言理解等)。Pangu知识库采用Agent和本体来表达知识,其中Agent强调包装和继承,重视事物之间的纵向联系,而本体主要进行常识知识的横向联想,因此本体论方法是面向Agent方法的一个很好的补充。在Pangu中,一个本体描述分成3部分:静态本体元的集合(Static Extension)、动态本体元的集合(Dynamic Extension)、本体网(Ontonet),后者也是一个语义网络,由从属于该本体的所有Agent构成。每个本体表述(ontology)从属于某个Agent的Belief部分,本体网的全体形成了该知识库的本体结构。
(2) NKI是一个庞大的、可共享的知识群体,为科研、教学、科普和知识服务提供有效的基础。NKI在对很多本体进行本体论分析时,定义了属性之间以及关系之间的公理。并且引入了强公理和弱公理的概念。在强公理不成立的情况下,以弱公理代替强公理进行推理,再在以后的推理中,由于新知识的加入或确定性高的公理的加入逐渐强化公理,以提高公理的确定性。NKI中,各专业本体是手工获取的。但是专业知识的获取是采用半自动的方式进行的:知识工程师先对专业知识进行形式化,计算机对形式化后的知识进行必要的整理。
(3)在大型信息系统的开发过程中,如何快速地获取和准确地表达用户需求,是长期困扰软件开发者的难题。一方面,软件开发者由于不了解应用领域,只能被动地等待领域用户提供信息;他们还难免对领域用户的描述产生错误的理解,因而得出不适当的需求模型,导致软件开发半途而废。另一方面,领域用户通常不知道如何按软件开发的要求去描述他们的需求。而且,他们一开始常常对自己的需求仅有一个模糊的认识。如何建立领域用户和软件开发者之间的沟通桥梁,将领域用户密切结合到需求获取活动中来。如何将领域用户的描述正确地转换为软件需求。这些问题越来越引起软件工程界的重视,从而引发了许多需求获取方法的研究。金芝提出的基于本体的需求获取方法,是以企业本体和领域本体作为需求获取的元模型,以之指导和规范整个需求获取过程,并通过对领域模型的重用,完成目标系统的模型构造。其主要思想是:①通用企业本体作为企业描述层的元模型,规范企业描述并使之系统化,保证企业描述的完整性和一致性;②领域本体作为领域元模型,定义企业描述在特定领域的约束,同时提供领域可重用概念及其关联;③领域软件需求模型作为领域分析的结果,支持目标系统需求模型的构造。
近年来本体的发展非常迅速,已经成为信息科学界最热门的词汇之一,被广泛应用于知识工程、人工智能、万维网、语义Web、信息检索、信息抽取、系统建模和异构信息集成等众多领域。另外,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,在知识系统、知识工程、知识表示等领域和下一代互联网语义Web领域的应用研究也较为普遍。主要研究领域分别为:
(1)语义领域,近年来,随着第三代语义Web的发展,本体凭着其丰富的概念语义结构,在语义领域的应用独占鳌头,并且呈现出快速增长的趋势。主要利用本体的概念体系、规范化的本体描述语言为语义网、语义模型、语义检索、语义集成、语义标注、语义地图、语义相似度、语义互操作、语义查询等提供丰富的概念语义基础和统一的语义描述框架。
(2) Web领域,主要通过本体的概念语义关系和本体描述语言为Web文档、信息、资源、网页等的标注和描述提供语义基础和统一的语义描述框架,从而实现Web文档、信息、资源、网页等的语义服务、智能化语义搜索、智能语义挖掘等Web应用。
(3)知识领域,主要借助本体规范化的概念语义关系,构建各个领域的知识结构,对领域内广泛、繁杂的知识进行识别、获取、概念化,使用形式化的本体描述语言对领域知识进行统一表示,形成各个领域的知识本体、知识库,从而为各领域知识的自动组织、获取、语义表示、语义检索、知识共享、知识的自动化管理和知识系统的构建、集成等提供语义基础和统一的逻辑框架。
(4)信息领域,要利用本体统一的共享概念模型、规范化的语义描述框架、丰富的概念语义关系,为信息系统和信息模型的构建、不同系统之间集成和通信、信息的共享等提供统一语义模型和逻辑框架,同时为信息的语义检索、信息分析、信息管理等提供规范化的语义推理、扩展机制和统一的信息语义描述与存储框架。
(5)管理领域,主要利用信息抽取技术、信息挖掘技术、推理技术、相似度计算方法将各个领域的资源进行抽取、概念化,分析资源之间的概念语义关系,利用本体描述语言对概念化的资源进行统一表示,构建各个领域的资源本体,以构建的资源本体作为共享概念模型,通过本体映射技术、基于本体的概念语义相似度计算、基于本体的语义推理技术、语义Web、知识地图、管理系统等对各个领域的资源进行自动化、半自动化的管理。
2.1.3.3 国外知名的本体系统
目前,国外比较知名的本体知识系统网站有如下几个:
WorldNet(http://wordnet.princeton.edu/);
HowNet(http://www.keenage. com/);
FrameNet(http://framenet. icsi.berkeley.edu/)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。