首页 理论教育 本体构建概况

本体构建概况

时间:2023-02-27 理论教育 版权反馈
【摘要】:本体是语义网的基础,因此关于本体构建的研究是目前本体领域的研究重点,然而由于研究者来自不同的研究领域,有不同的学科背景,因此在本体的构建方法上目前还没有统一的标准。利用人工智能领域所取得的成果,自动或半自动的构建本体,成为目前本体构建领域研究的重点。该项目中所用到的本体自动构建方法是:由领域专家提供少数高度概括本体领域的“核心词汇”,然后从Web上利用这些“核心词汇”搜索相关文档。
本体构建概况_领域本体的半自动构建及检索研究

3.4 本体构建概况

语义web很大程度上依赖形式化本体来组织机器可理解和传输的数据,毫无疑问本体可以为语义网的成功增值。本体是语义网的基础,因此关于本体构建的研究是目前本体领域的研究重点,然而由于研究者来自不同的研究领域,有不同的学科背景,因此在本体的构建方法上目前还没有统一的标准。一般在构建中,大都遵循Gruber在1995年提出的五条构建原则。在构建方法上有TOVE法、METHONTOLOGY法、骨架法、SENSUS法、KACTUS工程法、IDEF5法和七步法等。构建的基本思路有两种,一是利用现有叙词表或分类表改造成本体;二是利用现有文献和领域专家从头做起。后者较常用。

3.4.1 利用现有叙词表或分类表改造成本体

(1)国外的研究进展

①GEM[23]

美国Syracuse大学的J.Qin和S.Paling具体探索了将GEM(教育资料网关)中的受控词表转换成Ontology的原理和原则框架。其目的是为了多维度、灵活的描述数字资源,来适应智能信息表示和检索的需要。转化后的本体模型同GEM词表最初的语义模型相比,二者的主要区别是在描述电子资源时,无论是概念上(conceptually)的还是概念关系上(relationally)前者都提供了更深层的语义描述。

②AAT[24]

阿姆斯特丹大学信息科学系的B.J.Wielinga等人,利用AAT建立了一个描述艺术对象的Ontology。转化的主要方法是建立实体的描述模型(以家具为例),采用25个元数据元素来进行描述。然后将家具的描述属性同AAT叙词表中特定部分联系起来,是其中的词能够成为描述属性的属性值。最后添加领域知识,尤其是对属性值的约束上,限定属性值的范围,使之具有语义检索的能力。

③AGROVOC[25]

农业本体服务项目(Agricultural Ontology Service,简称AOS)是联合国粮农组织(FAO)国际农业研究信息管理中心负责的项目。在该项目中,有尝试将AGROVOC叙词表改造成语义关系丰富的农业本体。

其构建的方法是首先建立FA(Food and Agriculture)本体的框架结构,主要是各种语义关系,分析叙词表中逻辑关系模糊混乱的用代属分参,罗列出相应的语义关系明确的各种关系。采用rules-as-you-go算法来计算机辅助识别可能的语义关系模式。加工的方法是利用本体编辑软件,采用人工为主,计算机辅助的方式转化FA本体。强调在整个转化过程中都必须经过严格的人工审核。在构建过程中,采用rules-as-you-go算法来计算机辅助识别可能的语义关系模式。

此外,SWAD_EUROPE[12]在从叙词表向本体转化方面也做了较深入的研究。美国NCI叙词表向本体的转化也取得了很大的进步,有相当的借鉴意义。

(2)国内的研究进展

常春[26]在其博士论文中尝试利用《农业科学叙词表》部分数据建立一个食品安全的领域本体。采用RDFS作为描述语言,KAON作为开发工具。具体做法是将叙词表数据库以及词间关系转化为RDF格式,通过JAVA程序转化为KAON可读的形式。

国防科技信息中心尝试利用《国防科学技术词表》构建小型的军用飞机领域本体[27]。选取了与军用飞机相关的概念100个左右。采取中间展开,即最先选取最重要概念,再确定其他相关概念的方法来构建本体,概念之间的等级关系是根据词表的S、F关系来确定。概念之间的属性关系是在根据本体对象(军用飞机)的特点确立的,如飞机操纵性、飞机稳定性等。该本体选取RDFS作为描述语言,开发工具为KAON。

曾新红[28]利用OWL语言来描述《中国分类主题词表》。采用面向概念的模式将其表示为本体。即词表中的每一个正式主题词都既表示为Concept类的individual。属、分、参等关系在概念与概念之间声明,并在文中探讨了词表中复合主题的语义揭示方法。

3.4.2 利用现有文献和领域专家从头做起

本体的手工构建是一项工作量巨大并且异常繁杂的任务。利用人工智能领域所取得的成果,自动或半自动的构建本体,成为目前本体构建领域研究的重点。AI领域中许多机器学习的方法被改进应用到的学习中,实现的半自动或自动构建,可以在很大程度上加快的构建进程,节省很多的人力和时间。本体学习目前也成为研究的重点之一。本体学习[29](Ontology learning,简称OL)是一个新兴的领域,旨在帮助知识工程师(knowledge engineer)在机器学习(machine learning)技术的帮助下构建本体以及语义页面的标注(semantic page annotation)[30][31]

(1)国外的研究进展[32]

①InfoSleuth(MCC)

InfoSleuth是MCC(Microelectronics and Computer Technology Corporation)的一个研究项目,致力于解决信息的定位、评价、检索和合并问题,其目的之一就是为了构建基于本体的代理结构。并且已经成功地运用在不同的应用领域,包括知识管理、商业情报、算术、基因组映射、环境数据交换网络等。

该项目中所用到的本体自动构建方法是:由领域专家提供少数高度概括本体领域的“核心词汇”,然后从Web上利用这些“核心词汇”搜索相关文档。从搜索到的相关文档中抽取该领域推荐的“核心词汇”以及这些词汇的相关概念。同时在这些词汇中再次推选“核心词汇”以进行下一次迭代,直到获得满意的概念为止。定义数种关系模式并从文本中自动抽取出这些关系,例如“is-a”,“part-of”,“manufactured-by”,“owned-by”等。整个构建过程就是上述方法不断迭代的过程,每次迭代都有一次交互,领域专家都要进行评估,对抽取的内容进行选择或改进。

②AIFB

AIFB(Institute of Applied Informatics and Formal Description Methods,University of Karlsruhe,Germany)是本体工程研究领域非常活跃的一个研究组织。

从领域文本(自然语言描述的自由文本)中抽取本体是他们的一个研究项目,其构建方法主要分文本处理和学习算法两个部分。在文本处理中,通过信息检索和自然语言处理技术来抽取领域概念,使用SMES(Saarbrucken Message Extraction System)来进行句法分析。在关系学习机制中,通过聚类算法获取本体的等级关系。非等级关系,如整体与部分关系等的获取是目前本体学习中的难点。现阶段的做法主要是通过数据挖掘中的关联规则算法来获得。

Joerg-Uwe Kietz等人[33]采用上述方法利用企业网的数据构建了一个保险业本体。他们使用GermaNet作为顶级本体。领域概念的获取是通过一部领域词典获得。使用领域的自然语言文本语料(主要是通过词频)来剔除启发规则算法中获得的非领域词汇。通过多策略学习算法来计算概念之间的关系,包括统计学习算法和模式匹配算法。

③ECAI2000

ECAI2000(European Conference on Artificial Intelligence)workshop报道了本体学习领域中的重要研究进展。自然语言处理技术,如词性标注、词义消歧和短语切分被用于本体学习中,并发挥了很大的作用。通过这些技术来抽取能够代表概念的重要词汇。通过一些通用的顶级本体(WordNet,SENSUS)来消除歧义以确定最后的概念词。

Wagner在本体自动生成中,通过语料统计分析技术来推荐词汇,这些推荐词汇对主题关系的获取来说是至关重要的。通过EuroWordNet的辅助,利用一定的算法获取合适的概念以及这些概念所包含的特殊关系。

Chalendar&Guau开发了SVETLAN系统可以从领域自由文本中获取名词的等级关系。为了避免获取的类目过于通用,同时要考虑词条的上下文。系统输入是有语义的有一定权值的主题单元(Thematic Units),然后系统从原始文本中检索这些主题单元,获取与主题单元相关的动词,以及该主题单元的语法作用,来构成一个三元组,称为语法主题单元(Syntactic Thematic Units)。系统通过对这些三元组的分析来获得结构化的等级关系。

Bisson,Nedellec等人开发了Mo’K工作台用于本体构建中的概念聚类。该工作台可以帮助开发者根据给定的任务选取合适的学习算法进行聚类,并且能够对概念聚类方法进行评价、比较、加工。

Faure&Poibeau讨论了从特定本体中学习的语义知识可以帮助构建更为精确的信息抽取系统。开发的系统集成了语法分析工具SYLEX和概念聚类工具ASIUM,被称为是“双重规则模型”(double regularity model)。融合了两个工具的优点,可以同时的、自动的进行词义消歧和概念聚类,并且取得了很好的效果。

Todirascu,et al.使用简单的自然语言处理技术来半自动化的建立领域本体。采用描述逻辑表示,给本体提供有力的推理机制。同时还可以处理不完全的和错误的数据。在小规模的语法语料上对原型进行了测试。该系统可以使用很少的句法知识识别相关的语义问题。获得的概念是通过描述逻辑进行推理得出。该模型中使用了大量的自然语言处理技术,如词性标注、短语切分、模式识别等。领域专家提供少量的核心词汇以及词汇之间的关系,系统可以通过上述资源自动的实现领域等级结构的构建。

④Inductive Logic Programming(University of Texas at Austin,简称UT)

UT的机器学习小组使用规约逻辑编程(Inductive Logic Programming,简称ILP)从不同的实例中学习相关的规则知识。绝大多数的学习算法将学习语料严格的限定为基于特征的范例或概念,因此不能学习复杂的关系和递归知识。在应用中暴露了不少的问题,但是ILP目前仍是机器学习中不断成长的领域。UT系统(规约逻辑编程)在本体概念抽取和关系探测上十分有潜力,它结合了信息检索技术,机器学习和人工智能技术来作为它的概念和规则的学习。但是,如何将本体概念和规则配置入UT方法,还是一个尚待解决的问题。

(2)国内的研究进展

关于对本体的研究,国内还处于起步研究阶段,主要还是借鉴国外的经验。因此关于本体的自动构建研究甚少。

郑丽萍,梁永全[34]根据聚类分析法的特点,提出基于聚类分析法的本体构造方法。首先根据类的相关属性构造了一个数据矩阵,并利用矩阵中的值计算新生成的类和未合并类之间的绝对值距离,然后根据距离的大小对类进行合并,并产生新的类。用同样的方法计算新生成的类和未合并类之间的绝对值距离,直到得出最顶层的类为止,并以酒本体的构造为例来具体说明该方法。

董慧等人[35]结合国内外的研究经验,认为从某一领域文本中提取本体主要包括三个阶段,即文本预处理、本体抽取和本体关系获取。在文本预处理中,将文本按照一定规则转化为词;在本体抽取中,从词中抽取出相关本体;在本体关系获取中,对本体的层次或者交叉关系进行提取。采用基于统计模式从文本中抽词,基于奇异值分解从词-文档矩阵中提取本体,基于语义相似度对于本体进行聚类等。而对于本体自动获取的效果评估,提出了利用计算手工和自动两种方式获取的本体的相似度(包括词和语义相似度)来衡量的思路。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈