9.4 专家评审内容与规则
前文已经提到,叙词本体演化的主要工作是确定变更需求,执行相应的变更,并且保持演化前后叙词本体的一致性。专家评审工作的开展就是围绕这几项内容来进行的,不过对每项工作进行具体考察后发现,类似于词频统计、新词发现、关系抽取这种机械性的工作都由电脑程序自动完成,专家评审只需要做好两大类工作,主要包括对叙词的增删改和叙词本体一致性的评审工作。考虑到这两类工作自身性质、特点以及工作内容的不同,我们将分开对这两项工作的评审内容与规则进行阐述。
9.4.1 专家的任务目标
在叙词本体演化时,为了确保叙词本体的规范性与权威性,叙词本体演化工作必须在一定的目标驱使下开展,其基本目标包括两点:
(1)减少叙词本体演化过程中叙词变更出现的错误。在叙词本体演化进程中,我们必须考虑到,虽然机器的分词技术已经为机械化的人工操作带来了大大的便利,但是从根本上来讲,还不足以达到完美的程度,由于各种叙词抽取技术自身总会有或多或少的缺陷,这个叙词本体演化带来了一系列的问题,比如叙词本体新词发现错误,关系抽取错误,实例添加错误,甚至是变化之后带来叙词本体自身结构变动问题,这些问题在叙词本体演化中必须要加以控制和解决的。
(2)减少叙词本体演化中因为认为关系带来的主观性太强的问题。即使有专家对叙词本体的演化进程进行控制和管理,但是由于各个专家的自身经历不同,领域知识积淀也存在差异,可能还会因为各种利益出现一些违规的操作,这些导致专家在对某些叙词本体概念及关系进行评判时或多或少带有一些主观性质,不能够很好的指导叙词本体演化工作的进行,为了更高效的实现叙词本体自身的功用,必须减少在叙词本体演化过程中这一隐患。
为了完成以上两个基本目标,同时,考虑到前文提到的叙词本体演化的基本任务,专家在叙词本体的增删改工作中的评审任务就十分明确了,主要包括以下几点: a.叙词语词评审,对于计算机以自动或半自动化方式从Web资源中获取期望的本体的叙词集合进行人工审核; b.叙词间关系评审,主要是对计算机以自动或半自动化方式从Web资源中获取概念之间的继承关系集合的评审工作; c.属性关系评审,主要是对计算机以自动或半自动化方式从Web资源中获取概念之间的属性——宿主关系集合的评审工作; d.实例获取的评审,计算机以自动或半自动化方式从Web资源中获取实例集合以及实例和概念之间的实例关系集合之后,专家对此进行评审; e.叙词一致性评审,由于语词概念的加入,新的关系的变动带来叙词一致性变化的问题,需要领域专家的配合。对于词与词间关系的评审工作,如果专家能够做好以上5点,就能够保证叙词本体演化的顺利进行。不过总体来讲,可以将专家评审内容分为两大部分:第一部分是对叙词的增删改工作的评审,这些评审内容主要包括叙词与叙词词间关系的增删改工作的评审,至于属性关系与实例的评审,不需要专家给予过多的重视,虽然叙词表的构建采用本体技术,但却并未涉及过多的属性与实例。第二部分是对叙词一致性的评估,这部分内容评估的是叙词内在的稳定性与完整性问题,是为了保证叙词表结构的完整性而进行的一项工作。
9.4.2 叙词的增删改
增删改的评审规则,是叙词本体演化的基本工作,开始考虑将叙词的增删改与叙词间关系的增删改分开进行考虑,这样分析进行一段时间后,发现这一方法存在严重的缺陷,因为叙词本体自身本来就是叙词的属性和叙词间关系的一个结合体,叙词的增删改与叙词间关系是密不可分的一个整体,如果将其完全割裂开,会给叙词本体的演化工作带来严重影响,因此,对于增删改工作的进行必须是要将叙词作为一个整体来进行研究。
当然,对于叙词的增删改规则的制定,仅仅是针对叙词演化中的一个整体的规则探究,这里要指出的是,针对特定的叙词本体演化的方法,采取的演化框架与学习算法各异,所以必须考虑到采用本体演化技术之后,叙词本体的自动演化机制所基于的机器学习算法,到底是基于语境的方法、基于语言学的方法,抑或是基于统计学的方法,各种方法都会有自己的特点,因而也不免带来不同的问题。针对这些不同的机器学习方法,专家必须要考虑到这些方法自身的缺陷,然后在评审叙词时给予这些方面更多的关注。同时,对于叙词的抽取方式与叙词间关系的抽取规则也是完全不一致,因而,专家评审规则的制定也必须因情况而定,所以尽管我们必须对叙词的增删改作为一个整体来研究,但是为了读者能够更清晰透彻的理解专家评审规则,我们将会分别对词和词间关系的专家评审规则加以叙述,然后对二者做一融合。下面我们就结合前文所提出的词的抽取以及关系抽取的两种演化方式对增删改的内容进行详细说明,同时最后会给出一个基于词抽取的专家评审的几点讨论。
9.4.2.1 词抽取中的专家评审
叙词的抽取是基于Web信息源对CNKI上的专业信息的采集方式,主要的方法有三种:基于语言学的方法,基于统计学的方法以及混合方法。这三种方法前文已经提到,在此不过多叙述,因为本文最后的试验系统是采用基于统计的方式抽取各种新的叙词,所以结合这种方式提出专家评审的规则。
在计算机根据叙词本体变更需求在网上采集一定的信息后,会采用中文分词技术将采集到的信息加以规整,并且按词性分类存取,专家在评审的过程中,应该遵守以下规则,以确保采集到叙词的完整性与规范性。
①明确叙词变更需求,确认采集到的词是所需要的叙词。
②确保满足叙词变更需求之后,必须选取正确的词汇作为叙词或是选择放弃采集到的词。一般的,采集来的词汇可能有两种情形,一种是采集到关于某一热门领域的词汇比较少,或是采集到的都是一些已经被弃之不用的叙词,对于这一类的词汇,采取的措施就是放弃这类词汇;另外一种可能的情况是,采集来的关于同一概念的词汇较多,而且又都是较新的概念,这时,专家就需要根据自己的经验选择一个能够为大家普遍接受的词汇作为叙词。
③确定添加的新叙词,必须确保添加到正确的位置,同时也不能破坏叙词表自身的完整性和规范性。由计算机根据特定的算法确定如何将该叙词添加进叙词表之中,专家需要注意的是这个新添加的叙词在叙词表中位置是否合理,上下位关系是否完整,是否需要调整一些关系或是实例等。
④对于新增加的叙词,关键是看其应用是否有效,如果发现在与用户交互的过程中,这些叙词被使用率并不高,就应该考虑是否该替换一个其他的非叙词作为正式叙词了。
这样的一个闭环的评审规则,虽然较为复杂,但对于确保叙词本体演化的高准确性有了更好的保障。
9.4.2.2 词间关系中的专家评审
叙词间的关系分为三种:等同关系,等级关系和相关关系。在前文中提到,对词间关系进行抽取时,由于各种关系的复杂程度与自身特性不同,分别采用不同的方式对叙词词间关系进行抽取。采用模板的方法抽取等同关系与等级关系,而采用模板与关联规则的方法抽取相关关系,尽管两种方法之间不同,但是在抽取关系之后,提交专家进行评审的过程中需要遵守一些共同的规则,这些也是专家在评审的过程中需要留心和注意的,其主要目的是解决这类方法由于自身弊端带来的隐患。
①确保叙词本体词间关系的正确性。在词间关系的抽取中,由于计算机算法存在的一些弊端,因此抽取的关系并非绝对符合要求。专家在接收到评审请求时需首先关注抽取关系的正确性。模板方法虽然简便,但是过于刻板,由于自然语言的复杂性和多边形,可能有很多意想不到的抽取结果。虽然抽取结果准确率并不是特别高,但这些结果有部分还是可取的,这就需要专家的细心甄别和评审。同样,关联规则挖掘方法仅仅根据两个词在同一篇文章中同时出现次数的多少来判断二者之间是否存在语义关系,这有一定的科学性,不过当确定有语义关系时,会通过该规则的一些算法推测出二者的语义关系,这些未免有些武断,因为即便是具有灵活头脑的人类,在没有给出特定语境的情形下,也是很难分辨给出的一段话中的词间关系的。
②保证叙词关系加入叙词表之中的合理性。确定了词间关系的正确性,提交给计算机,计算机会根据演化的相关算法,将词汇添加到叙词表中相应的位置,这个过程,同样离不开专家的评审工作,专家需要确保词间关系加入位置的准确合理性,主要包括三个方面:加入叙词表中的词间关系位置正确,叙词表的变动调整影响范围最小,调整变动的准确性与完整性确定。
9.4.2.3 基于叙词专家评审实例讨论
在本书最后,我们将要构建一个信息检索领域的小本体库,原有的语料库是根据《中国分类主题词表》中信息检索领域构建,以此为基础的叙词本体表,在此基础上进行扩充,专家需要参与的工作主要有以下几点讨论:
(1)基于新的语料对叙词本体表进行修订
针对信息检索领域的本体叙词表,进行两项工作:一是信息检索领域专家对从各种数据源上搜集和加工之后的信息进行整理,人工选择与信息检索相关的术语;二是在语料库中统计词频,根据词频,对选择的术语进行排序,将词频低的术语淘汰掉,具体比例大小取决于构建该叙词本体表的目的,以及该叙词表的规模。选词过程是手工的,可以看做一种搜集术语的方式,词频统计可以是计算机自动查询次数后进行统计。
经过对信息检索语料库的信息检索相关术语词频统计之后,选择一些正确的词汇,并按词频大小进行了排序,通过查询,检查在已经合并的叙词本体表中是否存在这些词,并且分析其语义关系,将词频比较高,而叙词本体表中没有的词汇加入叙词本体表中。本文将词频大于一定阈值的词进行了查重,如果叙词本体表中没有,则将其加入,同时设计其与现有词汇的语义相关关系,并且在叙词本体表中对其关系进行重构。具体选择多大比例的词频比较合适,决定于构建叙词本体表的目的,以及领域专家从专业角度考虑其重要性。
60篇信息检索相关的网络信息,合到一起成为一个文件后,共10万字左右,用于选择和验证信息检索术语的出现频次。从语料中通过专家进行检词时,可以总结一些实践经验。在中文中,一些概念是混淆的,或模糊的,或不同人有不同的理解。如有的文章用“信息检索”,有的文章是“情报检索”,还有的文章是“文献检索”。这正是中文信息检索的特点,可用“信息检索”作为一个总的“概念”,其下分两个下位概念,一个是“文献检索”,偏重于纸质或是电子版文献信息的检索,多为图书馆学专业去研究的;一个是“情报检索”,偏重于网络信息资源方面的内容,多为信息学领域关注的问题。其实,在英语中,前者用“document retrieve”,后者用“information retrieve”是两个词,而中文中则只用一个词,只有看了文章才可知道属于哪一类。
叙词本体采用了本体的相关技术,通过领域专家挑词,对于概念的问题处理的还是较合理的。另一个比较明显的例证如“微内容”是否对“信息组织”造成威胁,对此问题目前还没有明确的结论。故在语义和词频方面,只能说与“信息组织”有关,而无法定义肯定或否定的语义关系,相信随着时间的推移,在此领域还会出现一些新的术语词汇,并且可能会增加新的语义。这就从具体实例中得到答案,即叙词本体需要不断地进行修订、补充新词、增加语义等服务,这是一个长期的过程。
对于专家评审选择词汇,有一点要重点强调,就是可以选择尽量多的同义词,相当于传统叙词表中的用代关系的词汇,将这些词汇作为同义词,放在同一本体论节点内,从而增加入口词汇,利于信息的搜索。
(2)基于词频选择叙词的讨论
基于语料库的词汇选择标准,有两点须明确把握。第一是必须选择词频出现多的专业概念词汇,以概念含义为标准吸收这些词汇,其中的专业性质由领域专家把关。并不是所有计算机检出的高频词汇,都可以作为吸收词汇,如与信息检索关系不大,则不必选择。例如一些从语言角度出发的连词、代词等,例如“而且”、“和”等词汇,一些相关汉语软件,有此类词汇的收集,这些可以通过构建词表,通过计算机程序自动剔除。另一些词汇虽然也为高频专业词汇,但与食物安全专业领域关系不明显,也不必收录。例如语料库中词汇“科技”一词,在语料库中出现了100多次,词频是很高,但这个概念太泛了,科技的概念或范围可以包罗万象,所以不选作叙词本体在信息检索领域的术语。
第二,根据词汇的词频高低,判断词的重要性,前提条件是组成语料库的所有文献,每表达一个主题,使用的词汇量是相同的。体现到在网上选择的每篇文献的篇幅,基本上是几千字的文献、消息或评论。由于限定了每个主题使用相同数量的词汇去表达,或者可以理解为每篇文献使用相同数量的词汇表达一个主题。具体到某一个词汇,在不同文献中出现的次数越多,则词频会越高,如果这些文献都与信息检索有关,则这些词应该是候选词。这种假定是比较理想的状况,实质上,各个文献所用的文法不尽相同,个别文章中,某一专业术语重复多次,即虽然出现的频次高,但集中在少数文献中;而一些词汇,虽然词频不算太高,但在多篇文献中出现,对于这种现象,在选词是也应综合考虑,不能把词频作为唯一的依据。比如词汇A只在一篇文献中出现了8次,而词汇B在语料库中虽然只出现4次,但却是分别在4篇文献中出现,这时仅凭词频决定词汇的重要性是不合适的,这种情况往往词汇B更重要。所以词频可以是参考项之一,具体词汇的选择应该通过领域专家的评审,按照词汇在专业领域中的重要性、语义相关等决定选用具体的词汇代表某一概念。
经过以上工作,专家评审需要做的就是定期的维护和修订,这些工作是基于叙词本体自动演化的基础之上的。其实对于维护工作,在一定思路上是重复构建本体论的原过程,鉴于叙词本体将来可用于网络搜索引擎,而网络信息的最大特点之一就是更新快、信息新,所以叙词本体表的维护应该是随时的、经常性的工作。
9.4.3 叙词一致性的维护
由于构建基于信息检索的叙词本体表的过程中,各人认识差异,在多人合作构建的知识库会导致概念理解的差异,导致不一致问题存在,另外在主观上,在知识形式化过程中,还存在由于认知能力的个人倾向性错误与编辑错误等。同时,由于知识量大而广,文本知识本身也可能存在不正确性,导致知识体系中的不一致性。除此之外,从哲学观点来看,随着时间的推移,知识正确性也会受到动摇。最重要的是,在叙词本体演化之中,带来新的词汇与关系,虽然能极大丰富叙词本体表的语义关系,但是难免带来叙词本体结构上的变化,带来一致性的问题。可以想象,知识不一致可能会带来什么后果。如果在军事上,知识的不一致可导致导弹无法正确发送、战机无法正确作战等;在农业上,可能提供的信息让农民无法正确把地握施肥的时间、得不到可靠的市场信息等。因而,对于一致性的维护是专家评审必须要解决的重要难题。
对于叙词本体而言,因为借鉴本体技术,在很大程度上与本体具有相似性,因而我们可以借鉴本体的一致性检测的专业知识作为叙词本体的一致性检测的指标,这点是有理论依据的,根据一些较为流行的一致性检测的理论知识,笔者认为专家评审在对一致性进行维护时要做到以下几点:
叙词本体的类定义应该是正确、词汇简略和语义明确。很自然,类的定义不一致,也会导致获取的实例产生歧义,导致实例知识不一致。因此,在进行知识获取之前,我们必须保证我们类的定义是一致的、完整的。特别是在由多个知识领域专家合作的情况下,可能导致对同一概念会有不同的专业术语来表示,造成类定义冗余。同样,叙词本体在演化的过程中,由于网上的信息量大而且较为复杂,鱼目混珠,存在大量错误的误导信息,这样给基于Web的概念抽取与关系抽取带来了极大的挑战,很有可能抽取的概念是一种错误的定义,或是抽取的语义仅仅是一个侧面的说明,并不足以作为一个概念的完整说明,诸如此类的情况等。因此必须对概念进行明确的定义,确保一个在本体中,一个概念只有一种术语名称,但允许定义多个同义词。另外一种情况是同一术语可能表示多个概念,这也是由于术语没有明确定义而造成的。这一情况也会体现在概念中关系、属性和侧面的定义上。
在信息检索叙词本体中,最重要和最基本的语义关系就是继承关系,由此关系构成的信息检索叙词本体可以看做描述信息检索领域的一个层次模型,也可以看做一种信息分类体系。因此,检查分类错误是最基本的要求。分类错误包括以下几种类型:
①循环错误。循环错误一般由于概念之间的关系循环造成的。最典型循环错误是分类结构循环,当一个叙词本体类定义除了描述自身知识外,也可能对自身知识的概括,这样通过继承关系就形成图9-4,如果分类一致,该图形应该是一个有向无环图,我们称为知识分类图。造成定义循环主要是由于对一个概念体系认知不清或概念层次过多导致的。针对知识分类图,我们可以从图中得知: C1和C2之间构成一条边表示C1是Cn的父类。另外,Cn-1是C1的父类,而Cn却又是Cn-1的父类,这样,就出现了矛盾,不可能一个类既是另一个类的父类,也是它的子类。在一般的继承关系图中,如果我们假设不存在环,那么需要证明图中没有回路。
图9-4 继承循环
②类划分错误。对一个概念进行分类时,一般将划分的子类构成该概念的一个划分。但是这虽然满足了概念定义的完整性,但是子类分类错误也会经常出现,我们称为类归属矛盾,如图9-5所示。假设A可以完整划分成任意一个互不相交的下属类P1,P2,□,Pn,任意Pi、Pj∈A,同时已知Pi可以划分为Pi1,Pi2,Pi3这三个下属类,如果B是属于Pj类,B同时又是另一个类Pi2的下属类,则类归属矛盾就出现了。
(3)公理不一致。叙词本体中同样会存在一些简单的公理,这些公理用于约束类之间、属性之间及关系之间的联系,从而保证框架知识的一致性,另外,公理重要的一个方面就是用于推理,能帮助系统提供一些智能判断。公理一致性是指公理规定条件下经过推理永远会得出一致的结论,而不一致性则相反。任何一个公理系统都要满足无矛盾性,否则用它建立的几何体系将是一个有矛盾的体系,这样的公理系统是没有任何价值的。从形式上,我们可以将叙词本体的公理系统看作一阶逻辑组成的逻辑系统,从这个意义上,公理不一致,就是说在逻辑系统中出现了“是=否”这样的公理,如公理P、Q,很明显公理P与Q相互矛盾。
图9-5 类归属矛盾
公理P:所有(x:儿童)((年龄)大于(婴儿年龄))。
公理Q:所有(x:儿童)((年龄)小于(婴儿年龄))。
从形式上,我们在本体中定义的公理可以看作一阶逻辑,因此,我们检查公理一致性就可以转化为一阶逻辑运算问题。
总的来说,对于叙词本体一致性的维护需要专家尽职尽责,不过当本体数量达到一定程度时,单凭人工评审的方式很难完成对叙词本体一致性的评审工作,因为其中的关系是非常复杂多变的。随着计算机技术的发展,相信通过编制一系列的算法,将很多人工劳动转换成机器的自动工作,这样将大大减轻专家的工作,不过在这之中,同样离不开专家去挖掘,制定有效的一致性评审规则与规范。
9.4.4 专家评审基本规则
专家评审一般分为讨论和投票两个阶段,投票表决应建立在充分讨论的基础上。在讨论中,按照叙词演化的类型进行细分为两类:
(1)对于叙词的选用和删除,专家评审需遵循的规则:
①专家对所呈交的叙词及其变化,进行一番评论之后,进行打分,采用10分制的方案,用打分来裁决该选用哪些叙词或是剔除掉那些旧有的叙词本体。
②无记名打分。其严格形式是秘密打分,每个专家有不受他人关注的私人投票空间。
③不得弃权。弃权票给多数票的确定带来一定困难。
(2)对于词间关系,专家评审须遵循的规则:
①选出该领域的两位权威度最高的专家,由他们为最终的叙词关系的确立进行表决,两位专家具有一票否决权,如果都不同意其他专家的看法,可以要求重新开始征集新的词间关系的意见。
②由学科领域的其他专家对提交的词间关系发表意见,让他们给出在叙词本体发生演变之后的词间关系演变的整体方案。
③无记名打分。其严格形式是将所有方案分发给各位专家,秘密的给每个所选打分,每个专家有不受他人关注的私人投票空间。
④不得弃权。
⑤由收集人员将所有的征集方案收集之后递交给两位专家,由他们进行评判,确定最终的叙词词间关系演化方案。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。