首页 理论教育 领域本体概念获取

领域本体概念获取

时间:2023-02-27 理论教育 版权反馈
【摘要】:从某种意义上讲,领域概念是领域知识在文本中的外在表现。
领域本体概念获取_领域本体的半自动构建及检索研究

5.1 领域本体概念获取

领域概念是在特定领域内具有语义的词或短语的集合。从某种意义上讲,领域概念是领域知识在文本中的外在表现。领域概念的获取就是从领域文本集合中抽取最能够代表该领域的概念集合,这个过程包括从领域文本中抽取术语集合、词性规范(同义词处理)以及领域概念的筛选和确定。

为了获取农学领域概念,需要首先获取农学领域的术语集合作为农学领域概念的候选集合。农史领域中的专业辞典以及一些主题词表,如《中国农史辞典》、《中国农业百科全书》以及《汉语主题词表》等收录了农史领域中权威、规范、核心的专业词汇,是农史领域术语的重要来源,但是这部分术语数量较少。此外,在农史的研究论文中也存在着大量的农学专业术语,是专业辞典的有力补充。因此,本研究将从农史专业辞典和农史研究论文中抽取重要词汇作为农学领域概念的候选集,继而采用一定的筛选算法从概念候选集中过滤掉常用词以及一些低频词,对这些术语进行词形规范,最终确定农学领域的核心概念作为农学领域的外在表现形式。

5.1.1 实验语料的获取

本文提出的领域本体半自动构建方案很大程度上是建立在机器统计学习基础上的,因此需要大量的文本作为计算的基础。现存的农史领域电子化的语料数量很少。幸运的是,2002—2005年,南京农业大学中华文明研究院承担的科技部国家科技基础性工作专项基金项目“中国农业科技遗产信息数据库建设”,初步建成中国农业遗产信息平台,提供农业古籍、农史论著题录库、全文库以及图文库的一站式检索,该平台给本文的研究提供了数据支持。

中国农史论文全文数据库主要收录了自1980年至2005年(其中有少许1980年以前的文献,最早可追溯到1950年)的农史领域四大主要期刊——《中国农史》、《农业考古》、《农史研究》以及《古今农业》、其他史学期刊和大学学报中的农史研究论文、部分农史会议论文、农史专业硕、博士论文、相关史学网站中农史论文等,总共收录论文10 098篇;涉及的研究领域包括:农史研究理论、方法、现状、组织机构、农业发展史、农业思想史、农业科技史、农业经济史、农村社会史、农业古籍、农业人物、农业文化和文化交流、区域农业史、历代农业史和世界农业史等。每篇论文均有人工标引的关键词和分类号,其中的关键词为人工自由标引,分类号采用中华文明研究院自建的农史专业分类表(草案)[1]的分类体系进行标引。

本文的实验语料主要是中国古代农学研究,即以古代农书论述为主线的古代农作物的农业生产技术为主要领域对象,根据农史专业分类表(草案)中的类目体系,这些研究论文分散在农学、农作物、农书研究、园艺等几个不同的类目下。我们从中国农史论文全文数据库中共抽取了以上类目的研究文献5277篇作为本文的实验语料,以此作为农学领域概念抽取、概念关系计算的来源。数据来源样例如下:

img12

图5-1 领域本体半自动构建来源语料样例

5.1.2 领域候选概念的获取

在领域本体的构建中,需要首先获取农学领域的概念术语,但是目前没有该领域的词典,这就需要一部分从现有的农史词典中筛选,但数量是远远不够的。此外,在农学研究论文中存在大量的农学领域专业术语,从中可以抽取大量的农学领域候选概念。本文所采取的领域概念获取方法就是借鉴了无辞典分词的方法之一——N-Gram文本表达方法,采用部分语法规则辅助筛选N-Gram文本表达造成的噪音,从古农学研究论文中抽取关键词作为农学领域候选概念的来源之一;另外从《中国农史辞典》等五部专业辞典中抽取相关的领域概念作为补充,下文将详细介绍农学领域概念的获取方法。

1 从本领域论文中获取候选概念

汉语在形式上与英语的最大区别在于构成句子的词之间没有明确的分隔符,因此,要想获取领域本体的候选概念,中文文本表达是首要的难点。目前主要有中文分词和词频统计相结合的文本表达、完全N-Gram标引法、词库匹配法以及基于N-Gram频率统计的方法等。以上方法在应用过程中都存在着一定程度的不足,例如,过分依赖关键词库,而关键词库的构建本身就是一项浩大的手工过程;过度依赖统计方法,会产生一系列的噪音,影响最终的文本表达效果[2]

(1)方法概述

从农史语料中获取农学领域候选概念主要分为两个步骤:首先采用N-Gram文本标引方法获取农史语料中的关键词汇,这其中存在一定数量的噪音,也就是非正确的构词形式,例如在田间管理、上有稻谷等片段。然后利用汉语的词和词组的构成特点,手工建立一系列的筛选规则,对N-Gram文本标引方法获取的数据进行过滤处理,进而从农史语料中获取农学本体的候选概念。整个处理方法的流程如图5-2所示。

img13

图5-2 N-Gram方法处理流程图

(2)N-Gram文本标引

N-Gram文本标引法主要分为以下几个步骤:

①停用词的建立

这里主要是抽取具有正确的分词边界,同时没有检索意义的虚词,例如:非常、任意、特殊等。

②文本预处理

文本预处理主要是去除文本中的特殊符号以及全半角的转换。在农史语料中,存在着不少这样的符号,例如,“·”、“¥”、“#”等。

③N-Gram生成

N元切分技术就是将一个字符串切分成一系列的短小的序列,例如,“天朝田亩制度考”切分后的结果是:

表5-1 N元切分结果

img14

具体的处理方法是:首先根据停用词表以及特例词表对文本进行过滤,形成句子截断标识,同时标点符号也是天然的句子分隔标识。经过调查统计,发现农史学科中一般词组的长度一般不超过8个汉字,因此,对经过句子分隔处理的文本进行N元切分,最大串长度不超过16个字节。

④GF/GL权重值计算

GF/GL权重值计算是对抽取的N元字符串进行处理,GF是计算字符串对表达文本主题的作用,GL是衡量字符串的长度给文本主题表达带来的影响,因此GF/GL可以衡量一个字符串对主题的表达能力,各参数的计算方法如下:

img15

其中,FREQ表示一个字符串的在集合中出现的频次。

img16

其中,LEN表示一个字符串的长度。

img17

其中,TLEN表示文本的长度,max(LEN)表示最大字符串的长度。

⑤关键词筛选

定义字符串同其父串(或者子串)之间的长度差异为K。筛选是只对长度相差不超过K的父串或子串进行比较,选择GF/GL值大的保留。

(3)基于规则的筛选方法

N-Gram文本法是一种有效的无词典文本表达方法,能够较好地从文本中抽取能够代表文本主题的关键词,但是即便如此,还是会产生一些噪音,主要表现为关键词词头或者词尾会带有一些冗余数据。例如:

①量词+名词如:“种农业古籍”;

②介词+名词如:“在田间管理”;

③名词+介词如:“新石器时代中”;

④名词+动词如:“报告显示”;

⑤介词+动词+名词如:“上有稻谷”;

⑥名词+助词+名词如:“维生素等营养物质”;

⑦名词+形容词如:“田间管理好”;

⑧名词+动词+形容词如:“水分蒸发快”;

根据汉语的构词特点[3],词组通常由“名词+名词”、“动词+名词”等形式构成,其中的数词、量词、介词以及助词构成了噪音。因此,设计了基于规则的筛选方法对提取结果进行过滤:使用哈尔滨工业大学的“语言技术平台LTP”标注工具4对提取结果进行词性标注,去除词头或者词尾中的数词、量词、介词以及助词。经过统计分析,发现经过规则过滤后能有效去除N-Gram文本表达法所带来部分噪音数据。

2 专业词典中补充

专业词典收录了该领域的核心术语,这些术语是进行领域本体概念获取的重要途径之一。在农学领域候选概念的获取过程中,主要选取了与该领域相关的五部专业词典中的部分词汇。

·《中国农史辞典》[5]

夏亨廉、肖克之主编,中国商业出版社1994年出版的《中国农史辞典》是一部出版最早的农史词解工具书。该辞典收录了包括农业史、农业思想史、农业人物与农书、土地制度、赋役制度、人口户籍、漕运、粮食仓储、自然灾害与荒政、土壤改良、土地利用、肥料、农具、农田水利、农学、农作物、园艺、林业、畜牧业、蚕业、渔业、茶文化、饮食文化等诸多方面的词汇,重点是农业技术史,共收词2 478条。

·《经济大辞典(农业经济卷)》[6]

由陈道主编,上海辞书出版社以及农业出版社联合出版的《经济大辞典(农业经济卷)》是一部经济专科工具书,收录了土地改革、农业社会主义改造、财务、金融、种植业、林业、畜牧业、渔业、工副业、中国农业经济史、经济思想史等18个领域的专业词汇。其中包含农业史领域词汇369个。

·《中国农业百科全书(农业历史卷)》[7]

该书荟萃了古今中外农业历史知识,是一部农业历史领域的大型工具书,包括了中国农业历史、中国农业发展史、中国农业科学技术史以及世界农业史等内容,共有661条条目,771个主题,1995年12月出版。全书按照音序进行排列,同时提供了学科分类目录查询、汉字笔画索引、外文索引以及内容索引等查询途径。

·《中国科学技术史(农学卷)》书后索引[8]

该书对中国传统农学的发展和历史成就加以记述和总结,依照中国农业历史发展的内在规律所呈现的阶级性,全书分为先秦、秦汉魏晋南北朝、隋唐宋元以及明清四篇,侧重从历史文献、技术体系以及指导思想等三个方面从事农史探索分析。其书后索引收录了该书中出现的农史领域相关的主题词、各种名词和一些篇章的主题,共有索引词1 038个。

·《中国分类主题词表(第一卷)》[9]

《中国分类主题词表》集合了《中国图书馆分类法》和《汉语主题词表》,实现了两者的兼容互换的问题。1994出版了《中国分类主题词表》第一版,2005年发行了第二版,同时包含了印刷版和电子版,内容包含52 992个类目,110 837个主题词,59 738个主题词串和35 690个入口词。由于涉及农业史在其中并没有单独的类,因此该类别的内容散落在多个类别中,从中筛选出了59条相关类目,整理后得到274个主题词。

5.1.3 领域概念的筛选

从专业辞典以及农史研究论文中虽然获取了农学领域的术语集,但是这些术语有些在农学领域中出现的频次很高,有些出现的频次非常低。为了客观地抽取出能够代表农学领域的领域概念,需要对领域候选概念集进行过滤和筛选。

(1)筛选原则

①专业性

领域本体是对领域知识进行表示,因此所收录的概念术语必须是该领域内的重要核心概念,具有很强的领域性。

②通用性

领域本体表达了对领域概念术语的共同理解,因此所收录的概念术语必须是领域内通用、共同认可、不存在表达争议的概念,避免收录甚少使用的晦涩术语,有利于领域本体的统一表达和共享。

③全面性

领域概念选集确立时,要考虑领域内各个研究方面的均衡分布,避免出现某一方向收录概念过于全面,某一方向收录概念又过于稀少的现象。

(2)筛选方案

采用的筛选方法是将农学领域候选概念集作为抽词词典对农史研究论文进行自动抽词标引,对标引词做特征筛选后剩余的候选概念作为最终的领域概念。同时这也符合文献保障原则,也就是农史本体中包含的领域概念必须是在绝大多数文献中出现过的核心术语。

img18

图5-3 领域概念筛选流程图

(3)抽词标引

进行抽词标引的目的是为了将每篇文本中表达该文本主题的关键词筛选出来,所采用的方法是根据关键词在文本中出现的频次和位置来综合考虑。通常词汇在文本中的表达能力与频次成正比。而词汇在文本中的不同位置表达能力也有不同,通常是题名>文摘>正文。

(4)权重的处理

主题标引[10]就是采用关键词表或主题词表,依据一定的标引规则,赋予信息资源实体语词的过程,也就是提取最能代表文本主题内容的语词。

语词在文本中出现的频次,即词频是衡量语词在文本中表达能力的一个必要条件,但是在提取文本主题语词的过程中,不同的标引源(文本中的不同位置)对文本的主题表达能力是不同的,其中文本标题的表达能力最强,文摘次之,全文较弱。因此,在本文中,我们引入位置函数Pos(term)来量化位置对标引能力的影响。采取的标引权重为:标题∶文摘∶全文=3∶2∶1。

img19

标引词的长度也是影响文本主题表达能力的一个因素,通常一个语词越长其包含的语义信息越多,相应的主题表达能力越强。一般标引词的长度通常为二字到六字长度不等。引入词长函数Len(term)来测度词长对语词表达能力的影响。

img20

其中,length为词长,max(length)为最大词长,这里我们取值6。

综合考虑语词的频次、出现位置以及词长等因素,提出以下加权方案:

img21

其中,i为整数取值为1、2、3,分别代表词出现在标题、文摘以及全文的情况。Freq(term)为标引词出现在相应位置的绝对词频。

(5)特征词计算

特征选择(Feature Selection)方法就是从文档集中去除信息含量较低的词汇。常用的方法有文档频率(Document Frequency,简称DF)、信息增益(Information Gain,简称IG)、x2统计(简称CHI)、互信息(Mutual Information,简称MI)和词强度(Term Strength,简称TS)。根据Yang[11]的比较分析,前三种方法特征选择性能较好,后两种性能稍差。综合考虑Yang的分析结果以及各种方法计算的复杂度,本文采用文档频率法作为特征选择方法。根据齐夫定律,中频词是一个专业领域内最稳定的词汇。通过特征词计算,过滤在整个文本集合中,特征词过高、过低的词条。如果特征词过高说明词汇在文本集中频繁出现属于“常用”词汇,如果特征词过低,说明词汇属于文本集中的“稀有”词汇,价值不高。

img22

其中,W(t)为词汇t的特征值,tf(t)为词汇在文本集中的主题标引总权值,N为文本集的总数,n1为出现t的文本数。

(6)实验结果

选取从6 000余篇文本作为筛选的文本集,将获取的8 432个候选概念集作为抽词词典进行筛选处理,最终选取了1 850个关键词作为农学领域本体的核心概念。领域概念的特征值样例如表5 -2所示。

表5-2 领域概念特征值表样例

img23

续表5-2

img24

5.1.4 同义词的获取方法

汉语中存在着大量同义词和准同义词,一个概念的语义含义可以通过不同的语词形式表达。例如,高粱又有膏粱、蜀黍、蜀秫、秫米以及芦粟等几个不同的语词形式。为了使计算机能够充分理解词语的含义,需要获取一个概念的不同表达形式。

同义词的获取方法主要有[12]:基于字面相似度的方法、基于同现分析方法、基于搜索引擎的方法以及基于义类词典或词汇分类体系的方法等等。综合考虑各种同义词获取方法的效果和效率,本文采用基于模式匹配的方法从专业词典中获取。

词典的作用之一是对词汇进行释义,释义方式遵循着一定的规律,其中使用了同义词、准同义词以及上下位词等语义方式来对未知概念进行释义,这就对同义词获取提供了一定的前提条件。本文采用的方法就是利用词典中对同义词的定义模式,从词典中抽取同义词对。

例如,在《中国农史辞典》中,有关“瓠”的释义:

瓠:又叫扁蒲、葫芦,蔬类植物。

从中我们可以抽取“瓠:扁蒲|葫芦”为同义词对。

根据文献[13],结合古农学文本的特点,定义了如下抽取模式:

<释义词>简称|又称|又称为|亦称|又叫|也称|也称为|参见|见|亦作|全名|古之|今之|习称|俗称|称之为|即为|故称|称之为|原名|又名|即|谓之

<同义词列表>

从《中国农史辞典》、《中国农业百科全书》作为主要实验语料共抽取6 978对同义词对。抽取部分样例如表5-3所示:

表5-3 同义词对样例

img25

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈