7.3 示例:“新能源汽车”领域知识组织系统评价
“新能源汽车”领域知识组织系统是利用知识组织系统管理平台集成构建的面向“新能源汽车”领域应用的知识组织系统。根据“新能源汽车”领域的学科分布,集成了汽车工程、交通、能源、环境等学科专业词表和分类法,并通过文本挖掘发现新能源汽车文献中相关的术语构成“新能源汽车”领域知识组织系统基本概念集;同时,借助于管理平台,人工与机器相结合建立术语概念之间的关联(包括属性和关系),初步形成了“新能源汽车”领域知识组织系统(http://168.160.18.252/vocabulary/),如图7-2所示。
图7-2 “新能源汽车”领域知识组织系统管理平台界面
7.3.1 “新能源汽车”领域知识组织系统评价
如前所述,新型的知识组织系统一般由内容资源和管理平台两个部分组成,因此,对“新能源汽车”领域知识组织系统的功能评价应从这两个方面分别评价。
(1)“新能源汽车”领域知识组织系统管理平台功能
“新能源汽车”领域知识组织系统管理平台是一个在线协同工作平台,可实现领域知识组织系统的构建(包括增、删、改等操作)、发布、维护、检索和显示等功能。
1)用户管理
领域知识组织系统设置了用户账号、角色、权限三级管理体系,可以灵活、安全地管理各个用户。系统缺省把用户分为4种角色:Admin、Field expert、Common user、Visitor的权限依次降低。系统具有增加用户角色的种类的功能,即不限制死这四种用户级别,各级用户的确定是通过对词表、词条、用户、日志的各种操作的权限来定,即用户的级别体现在权限上;总体原则:各级用户权限可以提升和下降;当用户量大时,对用户的级别变更可以进行批量处理;用户级别权限的提升和下降由admin来确定;admin用户只有一个。
2)词表管理
词表管理包括领域知识组织系统的创建、删除,元数据的描述与编辑,相关统计信息以及批量输出和打印等功能,是对领域知识组织系统整体信息的描述和注册。
3)词条管理
词条管理是对领域知识组织系统中具体每个词条或概念的创建、编辑、修改、删除、审核、发布、检索、打印输出等功能。词条管理包括三方面的内容:
①词条状态管理,包括草稿、待审核、已审核三种状态。
②词条内容管理,即词条元数据,包括词条基本信息、注释信息、分类信息和属性信息,允许用户使用默认元数据模板,也可自定义词条元数据元素。
③词间关系管理,即各个词条术语之间的概念关联。知识组织系统吸收了本体和语义网络丰富的术语关系和概念关系类型,突出了传统叙词表简单的等同、等级和相关关系类型,建立了更为丰富的词间关系,比如层级关系、类属关系、组成关系、空间关系等等。
4)日志管理
为了保证系统的安全性和可追溯性,“新能源汽车”领域知识组织系统提供日志管理功能,系统自动记录和备份用户的各种操作。
5)API应用接口管理
提供API,允许别的应用程序直接调用领域知识组织系统;也允许领域知识组织系统调用外部应用软件,如新词发现、词间关系自动构建、多词表概念映射等。
总的说来,“新能源汽车”领域知识组织系统管理平台面向领域知识组织系统构建、管理、发布的需要,采用软件工程学的方法开发,具备了较为完善的知识组织系统管理功能,具备一定的系统健壮性、安全性、协作性、兼容性和复用性。与单机版的《军表》管理系统、《中图法》电子版、《中分表》电子版相比,具有显著的优越性,它不仅提供了领域知识组织系统资源的在线浏览、检索和显示,还提供了协同式的联机构建、发布功能,在国内知识组织系统管理平台中处于领先地位。
(2)“新能源汽车”领域知识组织系统应用评价
描述、定义、翻译和导航是知识组织系统最基本的功能,“新能源汽车”领域知识组织系统是面向新能源汽车领域构建的新型知识组织工具,除了具备分类法、叙词表基本的信息组织功能外,还具备知识发现、知识服务等新功能。
从“新能源汽车”领域知识组织系统的应用领域来看,主要包括以下几大应用:
①术语注册和术语服务功能,这是开发领域知识组织系统管理平台的直接意义所在,用来注册和管理国内已有的和在建的各种术语资源、词表资源,避免重复建设,实现共建共享。
②信息标引和信息检索的语义工具,这是领域知识组织系统作为一个受控词表应具备的基本功能。
③知识导航,基于领域知识组织系统中概念层级关系和分类知识框架来实现资源的导航和浏览服务。
④信息抽取,借助于领域知识组织系统中概念和关系的形式化表示,实现文献信息的主题和命名实体的抽取,从而发挥其知识发现和知识推理的功能。
⑤动态分析与动态监测。基于领域知识组织系统中概念及概念语义关系,采用文本分类与聚类、文本挖掘、语义分析等工具与技术,对新能源汽车领域的科技文献(如期刊论文、专利文献、学位论文等)进行科学技术领域的分析与监测研究,从而发现技术趋势和新的增长点,使动态分析与监测从以往的基于数值分析的文献计量学方法向数值分析与内容分析相结合的分析方法转变。
这些新功能的发挥要求“新能源汽车”领域知识组织系统在内容和结构上要优于传统的分类法和主题词表,向更高级的本体方向发展。
7.3.2 “新能源汽车”领域知识组织系统的内容评价和结构评价
“新能源汽车”领域知识组织系统的内容和结构评价主要采用前述的各个定量指标和定性指标对其内容资源进行微观评价。
(1)“新能源汽车”领域知识组织系统实体评价
1)主题覆盖度。“新能源汽车”知识组织系统共收录领域术语52 548个,其中核心词5 174个,基础词47 374个。按照侯汉清所列举的词表规模,应算得上是该领域内的一部专业性大型词表。与之相关的《汽车工程叙词表》收词5 230个,《交通汉语主题词表》收词11 131个,《环境科学叙词表》收词6 479个。这三个现有叙词表是新能源汽车领域知识组织系统收词的主要来源,因此,新能源汽车领域术语与这些词表有很大的重叠度,如图7-3所示,图中左侧以文氏图反映新能源汽车领域知识组织系统术语与其他三部叙词表的主题重叠度,图中右侧为具体重叠条数。而图7-4则反映了新能源汽车核心词与这三个来源词表之间的主题重叠程度,从图示及相关数据显示可知,新能源汽车领域知识组织系统中收录的新能源汽车核心术语与其来源词表之间存在很大的差异,突出了新能源汽车最相关的主题。
图7-3 “新能源汽车”主题重叠度
注:N、T、E、A分别表示“新能源汽车”知识组织系统、《交通汉语主题词表》、《环境科学叙词表》和《汽车工程叙词表》。N and T表示“新能源汽车”知识组织系统和《交通汉语主题词表》的术语重合数量,以此类推。
图7-4 “新能源汽车”核心词主题重叠度
注:NC、T、E、A分别表示“新能源汽车”知识组织系统核心词、《交通汉语主题词表》、《环境科学叙词表》和《汽车工程叙词表》。NC and T表示“新能源汽车”知识组织系统核心词和《交通汉语主题词表》的术语重合数量,以此类推。
2)主题专指度。专指度的判别一般由主题领域与词汇量、词长结合起来使用,过高或过低都是不合适的。新能源汽车作为一个新兴的交叉学科领域,其收词范围涉及汽车、能源、交通、环境等学科领域,因此总词量达到52 548个,反映了其主题覆盖的广度,而其核心术语为5 174个,处于1 000~10 000之间的中型词表的规模。因此,从词汇量的角度分析,“新能源汽车”领域知识组织系统的主题专指度较大,但这还需要具体的应用实践来评价。
3)概念新颖度。新能源汽车作为一个新兴领域,其核心语词与概念本身就比较新颖;而“新能源汽车”领域知识组织系统作为一个2008年开始新建的知识组织工具,其收词来源除了前文所述及的三部相关学科词表———《交通汉语主题词表》(2007)、《汽车工程叙词表》(1995)、《环境科学叙词表》(1989),主要来自新能源汽车领域相关文献,包括期刊论文、教材和专著。由于本系统是一个实时管理平台,可以随时进行术语概念的增补,因此,总体说来,概念的新颖度比较高。
4)语词颗粒度。考虑到汉语的字、词素、词、短语的鉴定比较困难,本文采用平均词长来衡量语词的颗粒度,如公式7-1所示,平均词长等于每个词条长度之和与词条总数的比值。
新能源汽车知识组织系统总收词52 548个,总词长为232 897个汉字,因此平均词长为4.432个汉字;而新能源汽车知识组织系统核心词共有5 174个,总词长为27 004个汉字,因此,核心词的平均词长为5.219个汉字。
通过这组数据可知,作为面向专业领域的知识组织系统,收词多为专业术语,通用概念较少,因此词长相对较大、颗粒度较大。一般说来,词长越大,语词越专指。因此,其基本术语一般在4字左右,而核心术语甚至达到了5字词或短语,主题专指度较高。
5)语词的组配性能。通过词汇量和词长可知,“新能源汽车”知识组织系统较全面地收录了新能源汽车及相关领域的术语概念,尤其是专指概念较多,因此,该系统总体的语词组配性能较低。
6)概念清晰度用具有注释、限定词、等级关系的词汇数与总词量的比值来衡量。“新能源汽车”知识组织系统建设中预定目标是要将知识组织系统中的术语概念与汽车释义词典、百度百科、维基百科等关联,这样能保证每个术语概念都有对应的释义和注释信息。
7)概念的形式化程度。传统叙词表采用基于语词的建模方式,形式化程度较低;语义网络、本体等新型语义工具采用基于概念的建模方式,形式化程度高。在本项目所构建的领域知识组织系统是介于两者之间的一种知识组织系统,采用半形式化的语言表达概念及概念之间的关联,概念形式化程度中等。
(2)“新能源汽车”领域知识组织系统概念关系评价
限于时间,目前只为3 730个术语概念之间建立关系,其中入口词389个,共建立了3 619组正向对应关系,其中等同关系407组,从词间关系的双向性考虑,实际关系共有7 238组。
1)概念的入口率。概念的入口率为非正式叙词与正式叙词的比值,即入口词与正式叙词的比值,因此,从现已建立的关系中,可知入口词为389个,正式叙词为3 341个,则可得出“新能源汽车”知识组织系统的入口率为11.64%,尚未达到国内叙词表的16%的平均水平,据最新修订的《中国分类主题词表》的入口率的32%还有一定的差距。从应用的角度来说,入口率应是越高越好,所以,“新能源汽车”知识组织系统的还应增加更多的入口词,以提供其性能。
此外,概念入口率还可以是否提供多语种表达来衡量,“新能源汽车”知识组织系统为所收集的5万余词都提供了对应的英文专业术语的翻译,从这点来看,其多语种入口方面相对较好。
2)概念的关联度,拟用关联比、参照度和语义关系类型三个具体指标来表示:
①关联比,是指知识组织系统中设有参照的语词与知识组织系统中总词数的比率,关联比的值越接近1,知识组织系统的性能越好。
“新能源汽车”知识组织系统的关联比=
(3 730-389)/52 548×100%=6.35%
②参照度是知识组织系统中语词所接受的参照的平均数,一般使用属分参照数、相关参照数与正式词总数的比值来表示,而不包括等同参照数。
“新能源汽车”知识组织系统的参照度=
(3 619-407)×2/(3 730-389)=1.923
③语义关系类型。突破传统词表等同、等级和相关关系三种类型,面向具体领域,将概念语义关系细化是知识组织系统的一个特点,“新能源汽车”知识组织系统针对新能源汽车领域事物之间的关联,制订了一个更为详尽的术语概念关系类型,如表7-1所示。
表7-1 “新能源汽车”领域知识组织系统术语概念关系类型表
续表7-1
图7-5是“新能源汽车”知识组织系统中“安全气囊”这一概念的语义关系示例,由图可知,一方面其关系类型丰富,一般细化到表7-1中的二级关系;另一方面,对于具体关系还给出相应的标签注释。比如“安全气囊”的层次关系,不仅给出了“子类”这一关系类型,同时子类划分的标准也给出了分类标签,这是一种多重列类思想的体现。
因此,由于“新能源汽车”知识组织系统,尤其是内容资源部分尚处于建设中,所以反映概念语义关系的关联比、参照度都比较低,但概念关系类型比较丰富。
图7-5 “新能源汽车”知识组织系统概念关系示例———安全气囊
(3)“新能源汽车”知识组织系统微观结构评价
微观结构主要体现了概念或语词之间的关系形式,主要指标有:
①概念结构体系的类型。“新能源汽车”知识组织系统采用多维结构,结构维数越多反映了概念揭示程度越细致。
②层级关系类型,“新能源汽车”知识组织系统采用多层次关系,即允许一个概念拥有多个父类,这种多层级等级关系能更加真实地揭示概念关联,体现知识获取的多途径、多入口。
③结构原理的类型,“新能源汽车”知识组织系统统采用分面分类的思想,以分面结构组织术语概念。
④实体单元形式,“新能源汽车”知识组织系统采用基于概念的建模方式,以概念为实体单元,面向对象构建概念及其属性、关系等,形式化程度高,如图7-6所示,在“安全气囊”概念下用形式化的语言揭示了安全气囊的相关属性,揭示了安全气囊的性质、位置和功用等属性特征。
图7-6 “新能源汽车”知识组织系统概念属性示例———安全气囊
综上对“新能源汽车”知识组织系统的功能、内容和结构进行了简单评价,而对其在具体应用中的效果由于尚未进行实证,暂不作深入测评。
7.3.3 “新能源汽车”知识组织系统改进建议
评价的目的是为了更好地改进知识组织系统的性能。通过上述评测可知,目前初步完成的、基于集成构建的“新能源汽车”领域知识组织系统尚存在一些问题。
(1)“新能源汽车”知识组织系统存在的主要问题
“新能源汽车”知识组织系统作为本课题研究中的一个应用示范,目前初步完成了管理平台和部分内容资源的建设。从上述评价可以看出,管理平台的建设较为圆满,功能较全面完善,是目前国内一项具有开拓意义的工作,一方面为管理和盘活我国的汉语语词资源以及传统知识组织工具提供了平台;另一方面为高效实时建立面向具体应用的新型知识组织系统提供了一个协同构建、管理、发布、检索和展示平台,将大大推进我国汉语知识组织系统的共建共享。
针对“新能源汽车”知识组织系统本身,由于时间短、建设比较仓促,在内容资源方面还存在一些问题,主要包括:
1)术语、概念的语义关系构建还不够完善,仅完成了不足词量10%的术语概念的关系构建;
2)术语概念的规范化不够,控制程度低,作为一个高级的、面向机器理解的知识组织系统,术语概念的控制应强化而非弱化;
3)实体属性和关系的描述过于自然语言化,应考虑进行规范和控制;
4)缺乏一个有效的、通用的新能源汽车领域知识框架来统领这些术语和概念,目前仅仅是通过概念的层级关系来控制,使得各知识点被割裂,无法形成一个触类旁通、鸟瞰全貌的知识体系,因此,应尽快建立新能源汽车分类体系;
5)内容显示形式单一,仍采用传统词典式的显示形式,对于一些多维关系无法直观揭示,应引入各种索引和可视化技术来增加概念的显示效果。
(2)“新能源汽车”知识组织系统改进建议
通过对“新能源汽车”知识组织系统的评估,针对上述提出的问题,建议采用以下措施来改进:
1)增补其他来源词表。其语词概念来源主要来自两个方面:一是现有的各种术语表、叙词表等;二是通过对新能源领域文献的挖掘。其中来自各种传统知识组织系统的术语概念因为已经过专家的审核规范,具有重要的参考价值,应增加这部分的比重,但目前收集的三部词表,仅《交通汉语主题词表》比较新,是2007年发布的,另外两部都在2000年以前发布,相对比较陈旧,因此,应从其他一些最近发布或更新的词表中及时收录新词新概念,比如最近修订的《中分表》中相关学科领域的术语概念,维基百科、百度百科中的相关词条等。
2)采用各种手段建立词间关系和概念语义关系。目前仅完成了总词量7%的术语之间关系的建立,且关联比、参照度都偏低,而词间关系和概念关系对于知识组织系统功能的发挥具有举足轻重的意义,因此,不能仅仅依靠人的智力劳动来完成这样一项智力密集型的工作。可采取的措施有:①增补来源词表中的大量词间关系和概念关系;②通过关系推导、文本挖掘、主题聚类、相似度计算等各种方式来识别概念之间的关系以及关系类型。
3)采用自底向上和自顶向下相结合的策略,基于分面分析的思想构建新能源汽车领域知识分类体系,以统领语词和概念,增加概念的清晰度。
4)引入可视化技术、形式化描述语言,使知识组织系统内容的显示更直观,更便于机器可理解、可处理。
5)尽快推广应用,到实践中检验知识组织系统管理平台以及内容资源的功能和作用。
参考文献
[1]尚加宁,韩露盈.图书分类法性能的定量评价测评初探[J].情报理论与实践,1999,22(5):356~358
[2]孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].图书馆工作与研究,2007(1):22~25
[3]戴维民.叙词表评价论略[J].情报业务研究,1989,6(8):182~186
[4]周全明.叙词表微观结构评价指标述略[J].情报理论与实践,1994(2):24~27
[5]吴雯娜,曾建勋.叙词表微观结构的描述与评价———EI叙词表与中文叙词表的对比分析[J].图书情报工作,2009,53(8):12~16
[6]吴家柱,片玉君.《汉语主题词表》剖析、评价及发展路向研究[J].情报杂志,1994,13(6):45~48
[7]孙盛年,戴维民.《军用主题词表》词汇分析与评价[J].文献工作研究,1996(3):24~33
[8]张政宝.《中医药主题词表》的质量评价[J].医学图书馆通讯,1993(4):62~63
[9]侯汉清,马张华.主题法导论[M].北京:北京大学出版社,1991
[10]侯汉清,徐佳.国外叙词表的概况及发展趋向[M].//侯汉清.当代分类法主题法索引法研究.北京:书目文献出版社,1993:281~296
[11]傅兰生,崔荣英.叙词表的词量控制[J].情报理论与实践,1992(1):1 ~3
[12]周剑波,蔡丽.也谈叙词表的词量控制———与傅兰生等同志商榷[J].情报理论与实践,1992(2):5~6
[13]竺培培,叶骥良.谈叙词表的词量控制[J].情报理论与实践,1992(5):17~19
[14]《中国图书馆图书分类法》编委会.中国分类主题词表[M].2版.北京:北京图书馆出版社,2005.
[15]黄水清.叙词表与主题索引的评价指标———词强[J].江西图书馆学刊,1988(1):24~28
[16]冷伏海,徐跃权,冯璐.信息组织概论(2版)[M].北京:科学出版社,2008
[17]李华,侯汉清.《中国分类主题词表》(第二版)评介[J].国家图书馆学刊,2006(2):15~21
[18]Soergel D.Evaluation of Knowledge Organization Systems(KOS):Characteristics for describing and evaluating KOS[C/OL].JCDL 2001 NKOS Workshop,Roanoke.[2009-04-22]http://nkos.slis.kent.edu/2001/SoergelCharacteristicsOfKOS.pdf
[19]Gail Hodge.Types and varieties of terminology resources:A taxonomy of knowledge organization systems[C].Environmental Thesaurus/ Terminology Workshop,Geneva,Switzerland,2004
[20]Douglas Tudhope.A tentative typology of KOS:towards a KOS of KOS?[C/OL].ECDL 2006NKOS Workshop,Alicante.[2009-04-23]www.ukoln.ac.uk/nkos/nkos2006/presentations/tudhope.ppt
[21]薛春香,侯汉清.知识组织系统及其描述与评价初探[C].第五次全国情报检索语言发展方向研讨会,上海,2009年6月
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。