首页 理论教育 基于本体的网络信息资源组织利用

基于本体的网络信息资源组织利用

时间:2023-02-27 理论教育 版权反馈
【摘要】:究其原因是目前的信息组织和信息检索机制中缺乏对语义的控制,于是,在网络信息资源组织利用中引入基于语义的知识组织和检索的研究就显得越发重要了。
基于本体的网络信息资源组织利用_领域本体的半自动构建及检索研究

2.3 基于本体的网络信息资源组织利用

通过调查分析,不难得出目前网络信息资源组织利用中,主要采用基于关键字的机械匹配,割裂了字、词间的语义关联,缺乏必要的语义分析,导致用户信息获取结果不尽如人意。这种查询机制缺乏智能性和知识性,越来越难以满足人们日益增长的知识需求。究其原因是目前的信息组织和信息检索机制中缺乏对语义的控制,于是,在网络信息资源组织利用中引入基于语义的知识组织和检索的研究就显得越发重要了。

2.3.1 引入本体的必要性

我们知道,情报检索的过程实质上是存贮与检索过程中情报语言(标引语言与检索语言)匹配的过程,只有当检索语言与标引语言完全一致时,才能检中文献。当然,这个完全一致可通过如下两种形式实现:①字符形式直接完全一致。②两者通过查询转换(如借助后控词典、概念库、本体论等)实现一致。

在情报检索语言中,存在着人工受控语言和自然语言两种检索语言。使用受控语言对于普通用户来说难度太大,因此,在网络环境下,大多数系统都采用接近自然语言的关键词作为检索语言,但是由于自然语言的灵活性,存在着大量的一词多义,一义多词等现象,导致关键词在信息检索中出现了种种的不适。

对于自然语言的控制措施,早期有入口词表控制法、后控制词表控制法等词表控制方法[14]。随着人们对词表编制效率要求的提高,人们又提出了概念空间、语义网络、语料库控制、语义本体等方法。在众多的语义控制措施中,语义本体作为一种最新的、最具前景的语义概念控制方法备受瞩目。

(1)本体的概念

本体(Ontology)最早是一个哲学概念,与认识论相对,研究事物客观存在的本质,是对客观存在的系统的阐释和说明,描述的是客观存在的抽象本质。后来随着人工智能的发展,本体被人工智能界给予了新的定义。最初人们对Ontology的理解并不完善,随着对本体研究的深入,这些定义也出在不断的发展变化中。

1993年,Gruber[18]给出了Ontology的一个最为人们所熟知和认可的定义,“Ontology是概念模型的明确的规范化的说明”。后来,Borst在此基础上给出了Ontology的另外一种定义“Ontology是共享概念模型的形式化规范说明”。Studer等对上述两个概念进行了深入的研究,认为Ontology是共享概念模型的明确的形式化规范说明。这包含了四个层次的含义:

①概念模型(conceptualization)

概念模型是通过抽象出客观世界中的一些现象的概念而得到的模型,其所表现的含义独立于具体的环境状态。

②明确(explicit)

“明确”是指所使用的概念和概念约束都有明确的定义。

③形式化(formal)

“形式化”是指Ontology是计算机可读的,可被计算机理解和处理的。

④共享(share)

“共享”是指Ontology所体现的是共同认可的知识,是相关领域中公认的概念集。

Ontology的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

(2)本体的特点

就其实质而言,本体是特定领域内的概念集,描述了该领域内公认的对象以及对象间的关系。Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,具有良好的概念层次结构和对逻辑推理的支持,特别是其共享性和开放性,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。Ontology能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率和查准率。

由于本体是对特定领域内的概念及概念关联的形式化表示,具有较强的语义属性,因而,利用本体可以克服传统信息检索割裂词间语义关系的弱点,较好地解决因简单关键词匹配带来的“信息过载”、“形义不符”等问题,并在一定程度上实现基于知识、语义的检索。用本体改善信息检索,实质上是对主题分析与概念抽取这两个过程进行改进,这是因为,借助本体,一方面可以对文档内容和检索用语进行标注、规范,辅助分析信息源的领域归属;另一方面,可以实现查询语词的扩展与转换,提高检索系统的语义处理能力。

2.3.2 本体在农史信息资源管理中的作用

建立领域本体可以对领域知识进行结构化描述,提供机器可理解的语义基础,因此,借助于领域本体可以对网络信息资源提供具有语义的描述、组织和检索,解决目前网络信息资源组织中的弊端,提升网络信息资源服务的效率和精度(见图2-1)。领域本体在网络信息资源管理中的作用主要体现在如下几个方面:

img2

图2-1 基于领域本体的信息资源管理方案

(1)语义导航

领域本体是由农史领域概念以及概念关系构成的网状结构。概念及其之间的关系可以形成一个相对比较完整的分类体系。而其中的实例则是关于领域内某一概念分类的具体实现,它们聚集在该概念分类之下,相当于关键词或主题词的作用。因此可以说本体更加完善的实现了分类与主题的一体化。即由概念以及概念之间的关系形成分类体系,概念的实例形成词表。

利用领域本体严密的“分类—主题”结构组织资源,进行资源智能导航,将资源合理分配与领域本体的概念节点之下,可以实现基于语义的分类、(主题)概念的无缝组合。基于领域本体可以向用户提供上下文相关的知识,即随着用户浏览意图的不同,提供不同的信息,实现动态导航。在领域本体中,不同的类别又拥有不同的属性。浏览Web页面时,用户在浏览时可以选择不同类别的概念实体,根据概念实体的不同属性进行选择。这种导航是根据特点概念实体而生成的动态的具有语义上下文环境的服务方式,同时对于用户来说是具有一定的启发作用。

img3

图2-2 《齐民要术》导航图

(2)语义检索

语义检索是基于知识、语义的匹配检索方式。基于领域本体的语义检索实质上是把借助领域本体规范后的检索请求按领域与标注后的信息源索引库进行语义匹配和语义推理,并提交给检索系统的过程。基于领域本体对术语的严格描述和定义,以及反映术语间关系的语义网络,可以实现对查询请求和信息源知识的规范处理。在农史信息资源的管理中引入本体,能够实现按领域的语义检索,同时也可以较好地解决一义多词、一词多义问题,大大减少了信息检索中的噪音干扰,节约了检索时间,减少了检索主体遍历的空间,有利于解决目前信息检索中存在的诸多问题,大大提高网络信息资源检索的效果。

(3)语义标注

从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。通常,这种语义信息的添加是基于本体进行的,称之为语义标注。语义标注将推动语义Web走向实际应用,智能Agent能够根据Web上的语义信息实现智能推理任务,并能提高信息检索的精确性。使用已有本体在Web页面中插入语义元数据信息,从而使Web页的内容机器可识别。

例如:在领域本体中表达“整地农具”这个概念时,预先为它设置了几个属性:英文名、中文名、构建材料、出现时间、适用土地、牵引力以及记载农书等。在实际的网页中,发现了“曲辕犁”一词就可以将其标注为<material>金属</material>、<time>唐代</time>、<land-type>江南水田</land-type>、<drag>牛</drag>、<book>耒耜经</book>,其他农具都照此标注,这样就建立了一个广泛的可共享的概念体系,以后用户就可以采用多种语言,随意使用不同的表达方式对农具进行检索。

(4)术语服务(Terminology Service)

当今时代科技信息飞速发展,随之而来涌现出大批新的术语,如果不及时发现、收集并解释这些新术语,势必会影响科技信息在大众之中的理解和传播,给学术交流带来不便。然而,在科技发展的新形势下,传统的手工方式已远远不能满足术语标准化工作的实际需求。

领域本体收录了特定学科领域中的概念以及概念之间的关系,或者该学科领域的重要理论。这类本体包含了大量的科技词汇,属于专业性的本体,例如飞机制造、化学元素和生物信息学等以及本文所构建的古农学本体。而一般的术语定义是按照“种差+属概念”的形式,这也正符合本体的定义结构,即为概念所属的类别以及自身的属性。因此,构建出的农史本体在一定程度上可为领域专业词典的编纂以及农史术语服务提供核心参考数据。

(5)个性化服务

用户语义模型是用户描述某一对象时所用词汇及其关系集合的语义标注,反映用户对某一对象的理解。不同知识背景的用户对相同词汇的理解各不相同。用户语义模型的构建主要有两个方面:首先是按照一定规则确定用户的概念集合。即在分析用户兴趣爱好、信息需求、浏览行为等基础上,抽取出概念集合;其次是将用户的概念集合与领域本体进行语义映射,确定和用户概念相匹配的概念以及概念之间的关系,建立用户的语义空间。通过将用户概念空间与领域本体进行语义映射,可以建立信息源和用户之间统一的语义模型。该语义模型是为用户提供个性化信息服务的基础。

在网络信息资源管理中,引入用户语义模型可以为用户提供个性化信息服务。同样是研究土地,农业经济史学者则偏重于土地制度方面,农业科技史研究者则偏重于土地利用制度方面。因此,建立用户语义模型一是可以根据用户的背景提供更为精确的导航和检索,二是可以根据用户的需求提供主动的信息服务,将用户需要的信息及时发送给用户,节省用户搜索信息的时间。

不难看出,实现语义层面的信息服务的核心问题是领域本体的建立。领域本体用于描述特定专业领域,定义该领域的概念和概念之间关系,描述该领域的基本原理、主要实体和主要活动及其关系,提供领域内部知识共享和知识重用的公共理解基础。目前许多领域已经拥有了相应的本体,例如美国国家医学图书馆建立的UMLS医学领域本体、多伦多大学的虚拟企业(virtual enterprise)本体,酶催化生物医学本体GENS1M,Hinius陶瓷材料本体等。我国在农业本体的建立方面也进行了大量的研究工作,为农业信息资源实现语义层面的信息组织和信息检索奠定了基础。然而在农业史领域,目前尚未见有此类的知识组织工具的研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈