3.2 常用知识组织系统构建标准
标准通常按其使用范围划分为国际标准、区域标准、国家标准、专业标准和企业标准等。与知识组织系统构建与管理相关的机构主要有ISO下的TC37分会(术语及其他语言与内容资源技术委员会)、TC46分会(信息与文献技术委员会)、IFLA、W3C以及各国的标准化组织。
目前,各种知识组织系统构建标准基本都是针对某种类型的语义工具而制定的,尚不具备普遍适用性。下面将按照具体的语义工具类型,分类别简单介绍常用的编制或构建、管理标准。
3.2.1 术语表编制标准
术语表编制标准主要是指导术语标准化工作,成立于1951年的ISO/TC37为世界范围内术语的协调和统一做出了巨大的贡献。ISO/TC37下设4个分技术委员会:SC1“Principles and methods”(原则与方法);SC2“Terminographical and lexicographical working methods”(术语与辞书编纂工作方法);SC3“Systems to manage terminology,knowledge and content”(术语、知识与内容管理);SC4“Language resource management”(语言资源管理)。该委员会指导和协调世界范围内术语标准化工作,建立了一套较为全面和完整的术语工作体系,包括术语学理论与方法的工作体系、术语工作的专家体系以及术语的查询系统等。
其中相关的术语编制国际标准主要有:
●ISO 704:2000Terminology work—Principles and methods(术语工作 原则与方法)
●ISO 860:1996Terminology work—Harmonization of concepts and terms(术语工作 概念与术语的协调)
●ISO 1087-1:2000Terminology work—Vocabulary-Part 1:Theory and application(术语工作词表第一部分:理论与应用)
●ISO 1087-2:2000Terminology work—Vocabulary-Part 2: Computer applications(术语工作词表第二部分:计算机应用)
●ISO/TR 12618:1994Computer aids in terminology—Creation and use of terminological databases and text corpora(术语工作计算机应用术语数据库和文本语料的建设和使用)
●ISO 12620:1999Computer applications in terminology—Data categories(术语工作 计算机应用数据类目)
●ISO 12200:1999Computer applications in terminology-Machine-readable terminology interchange format(MARTIF)—Negotiated interchange[术语工作 计算机应用 机器可读术语交换格式(MARTIF)协商交换]
●ISO 16642:2003Computer applications in terminology—Terminological markup framework(术语工作 计算机应用术语的标记框架)
●ISO 10241:1992International terminology standards—Preparation and layout(国际术语标准 准备与显示)
●ISO 12616:2002Translation-oriented terminography(面向翻译的术语编纂)
在ISO国际标准基础上,全国术语标准化技术委员会(SAC/TC 62)制定了相应的我国术语编制国家标准,主要有:
●GB/T 10112-1999术语工作 原则与方法
●GB/T 15237.1-2000术语工作 词汇 第1部分:理论与应用
●GB/T 16785-1997术语工作 概念与术语的协调
●GB/T 16786-1997术语工作 计算机应用 数据类目
●GB/T 17532-1998术语工作 计算机应用 词汇
●GB/T 18155-2000术语工作 计算机应用 机器可读术语交换格式(MARTIF)协商交换
●GB/T 19100-2003术语工作 概念体系的建立
●GB/T 13725-2001建立术语数据库的一般原则与方法
●GB/T 15387.1-2001术语数据库开发文件编制指南
●GB/T 15387.2-2001术语数据库开发指南
●GB/T 15625-2001术语数据库技术评价指南
●GB/T 19101-2003建立术语语料库的一般原则与方法
●GB/T 19102-2003术语部件库的信息描述规范
●GB/T 11617-2000辞书编纂的一般原则与方法
●GB/T 11617-2000辞书编纂符号
●GB/T 18895-2002面向翻译的术语编纂
●GB/T 19099-2003术语标准化项目管理指南
语词是各种知识组织系统标识的基础,术语的标准化是其他知识组织工具标准化建设的前提和基础。术语标准化工作经过多年积淀,已经形成了比较成熟的术语表构建流程,如图3-1所示。
图3-1 术语表构建基本流程
图表来源:刘春燕,沈玉兰.信息与文献术语标准现状及修订建议[J].情报杂志,2008(11):107~110.
由此可知,术语表的编制重点体现在收词来源的权威性和全面性,考虑到网络流行语出现频繁,新词新语不断涌现,收词时还应具有一定的前瞻性;同时,要尽可能建立丰富的术语元数据信息,将术语的各种来源和定义进行存储。此外,还要实现术语的规范化处理,实现术语本地化、双语或多语术语翻译转换、词汇排序和显示、同一概念对应的不同术语的聚类等多种目的。
3.2.2 分类表编制标准
分类法是目前最常用的知识组织系统之一,不论是在传统图书馆环境中,还是网络信息环境中都占有着重要的地位。虽然目前各种各样的分类法、分类表成百上千,分类法的标准化问题也一直深受国际图书馆界的关注,但令人遗憾的是至今尚未有国际通用的分类法编制的专门技术标准。
MARC 21是结合加拿大机读编目格式(CAN/MARC)与美国机读编目格式(USMARC)相似,再排除相异性而形成;它基于美国国家标准学会(American National Standards Institute,简称ANSI)的Z39.2格式整合了各国的MARC格式,利用网络与各种通信技术,打破各国疆界,使书目格式的交换更加便利。MARC21的设计是为重新定义MARC格式,增进其检索功能,以求适用于21世纪的网络环境。其中《MARC21分类数据格式》是MARC21 的5种执行格式之一(MARC21书目数据格式、MARC21馆藏数据格式、MARC21规范数据格式、MARC21分类数据格式、MARC21社会信息格式)[3]。它是一个传统的分类表描述标准,是类号、类名等类目信息的规范化描述格式,即用MARC格式分字段记录和描述分类表的类目信息,包括类目的类号、类目、类目注释、索引词、类号的组成等等,这是一部分类表的描述和管理标准规范,但也涉及一部分内容构建的信息。
我国国家标准局颁布了几项信息分类编码方面的标准,实际上是分类法编制技术标准,具体标准有:[4]
●GB/T 7027《信息分类编码的基本原则和方法》,1986年发布,目前使用的是其2002年版本GB/T 7027-2002。
●GB/T 20001.3-2001《标准编写规则第3部分:信息分类编码》,这个标准确立了分类法的结构和编写规则,适用于信息分类编码国家标准、行业标准、地方标准的编写,于2001年颁布实施,取代了原来的GB/T 7026-1986。
●GB/T 10113《分类与编码通用术语》,1988年发布第1版GB 10113-1988,最新版为GB 10113-2003。
随着各种知识组织工具的集成共用,分类表作为一种典型的受控词表形式,其编制规范在一些受控词表或结构化词表的新修标准中多有论述,如在新修订的BS8723标准中分类表作为一种叙词表以外的词表形式进行论述[5]。
3.2.3 叙词表标准
叙词表编制标准在各种类型知识组织系统标准中最受关注,不仅有国际标准、国家标准,还有行业标准。本文仅罗列了关注比较多的ISO国际标准、英美国家标准以及我国的相关标准等。
(1)叙词表编制标准
早先单语种叙词表和多语种叙词表分别设立编制标准,主要的单语种叙词表编制标准有:
●联合国教科文组织(United Nations Educational,Scientific and Cultural Organization,简称UNESCO)的《单语种叙词表编制准则》(1970年),这应该是最早关于叙词表编制的规范。
●ISO的ISO 2788(Guidelines for the establishment and development of monolingual thesauri,《单语种叙词表编制和开发指南》,1986年),是在UNESCO的《单语种叙词表编制准则》的基础上修订而成国际标准。
●英国的国家标准BS5723-1987,等同于ISO 2788,目前正在被新修的BS8723所取代。
●美国的国家标准Z39.19自1974年由ANSI首次出版,先后于1980、1988、1993、1998、2003、2005年多次修订。2005版是完全的新版,修改篇幅很大,提供了单语种受控词表(包括同义词环、分类表和叙词表等)的内容、显示、构建、维护和管理等方面的原则和规范,充分考虑了非纸质文献的标引要求,也提出网络环境中的内容和结构展示要求。
●我国的国家标准GB/T 13190-1991(《汉语叙词表编制规则》,1991年),是在ISO 2788的基础上,结合汉语特点制定的汉语叙词表编制规范,我国绝大多数叙词表都是依照其编制而成。
除了单语种叙词表的编制标准外,还有专门针对多语种叙词表编制的标准,主要有:
●ISO的ISO 5964(Guidelines for the establishment and development of multilingual thesauri,《多语种叙词表编制与开发指南》,1985年)
●英国的国家标准BS6723-1985,等同于ISO 5964。
●IFLA的多语种叙词表编制指南(Guidelines for Multilingual Thesauri,简称IFLA指南),由IFLA的分类与标引分会下设的多语种叙词表指南工作组专家2005年起草,通过增补多语种受控词表编制最新资料以完善ISO 5964[6]。
●我国的国家标准GB/T 15417-1994(《多语种叙词表编制规则》,1994年),在ISO 5964的基础上完成的。
多语种叙词表的编制标准主要包括构建的方法,如自底向上直接构建或者从其他单语种词表转换或合并;词汇控制、语词选择、显示等;重点关注多语种词汇之间的等同关系的建立、类型、衡量和表示等。
最近,随着知识组织系统日渐深入人心、叙词表的电子化、网络化等因素的影响,在叙词表标准的基础上修订适用于网络环境的知识组织系统标准呼声日高,一些标准化机构也闻风而动,比如英国BSI将BS 5723和BS 8723进行合并,并新增其他类型结构化词表和互操作等内容,形成一个用于信息检索的结构化词表标准BS 8723,其中第一、第二部分已经公布,用来取代BS 5723和BS 6723;第三、第四、第五部分为新增内容,涉及其他类型知识组织工具及互操作相关内容,还处于草案阶段;另外,ISO于2007年4月发布了叙词表国际标准修订的计划,开始着手以BS 8723为基础将ISO 2788和ISO 5964更新和扩展为ISO 25964(Thesauri and Interoperability with other Vocabularies,《叙词表及与其他词表的互操作》)。图3-2简单揭示了几部常用的叙词表编制标准的演进和关联。
图3-2 常用叙词表编制标准关联图
注:方框表示单语种叙词表编制标准,圆圈表示多语种叙词表编制标准,椭圆方框表示单语种、多语种叙词表共用,连线及连接词表示各标准之间的关系。
当然,除了上述标准外,其他国家或组织也有相应的编制标准或规范,本文不作论述。
(2)叙词表标准修订新变化
随着叙词表编制环境、管理水平、应用环境的变化,各部叙词表编制标准也相应进行了修订,如前所述,BSI将BS 5723和BS 6723合并,修订BS 8723,将适用对象从叙词表转变为结构化词表;Z 39.19适用对象从叙词表转变为受控词表;ISO 25964拟取代ISO 2788和ISO 5964,由ISO 25964-1用于信息检索的叙词表,包括单语种和多语种叙词表;ISO 25964-2与其他词表的互操作,包括其他词表以及叙词表与它们之间的互操作两部分。这些修订反映了叙词表编制标准与时俱进,面向电子化、网络化编制和应用转变,走通用知识组织系统标准路线的变化。具体表现在:
①超越了叙词表的界限,从叙词表拓展到结构化词表、受控词表,将词单、同义词环、分类表、本体等收纳进来,扩大了其适用对象的范围;
②突破纸质词表的限制,考虑词表编制的电子化和网络化特征,尤其是词表数字环境下的显示和管理;
③扩大了词表在电子环境下和网络环境中的应用,而非仅局限在文献标引和文摘;
④互操作问题成为词表编制的一个重要组成部分;
⑤不再区分单语种、多语种,而是把多语种词表编制作为词表互操作的一个特例;
⑥引入分面分析在词表内容构建和显示中的应用,提出了相应的应用原则;
⑦强调了词表的管理工作,包括管理系统的建设、编制业务流程的管理、词表更新维护机制等等;
⑧增加了企业用户参与标准编制,这点可以从Z39.19-2005的编委会成员中看出,有微软、有专门的数据库内容供应商Pre-Quest。
由目前的修订可以看出,传统叙词表编制标准中增补了分类法、本体等其他语义工具以及不同的词汇控制工具间的互操作、协议、格式等问题,提供了对电子词表的功能设计、词表管理软件、在数字环境下的显示和分面分析等诸多规范和建议,越来越接近于一部通用的知识组织系统构建标准。
3.2.4 其他知识组织系统构建标准
除了上文述及的针对传统知识组织工具的编制标准外,一些新型的知识组织系统也陆续制定了相应的编制和描述标准。
(1)主题图及其编制标准
主题图是一套用来组织信息的方法,使用这种方法可以提供最佳的信息导航[7]。主题图是由主题、关联和资源实体构成的集合体。主题图产生在2000年前后,一开始就与HyTime和XML等描述语言相关联。主题图最核心的内容仍体现在概念(主题)和关系上,其编制标准主要有[8]:
●ISO/IEC13250 Topic Maps(主题图),2000年由ISO/IEC(国际标准化组织/国际电工委员会)的第一联合技术委员会JTC1下设第34分会(文档描述与处理语言分技术委员会)制定,2003年修订2版,此后陆续完善,形成了一个有关主题图的标准家族,由七个部分组成,规定了主题图的数据模型、语法规范及基于Hy-Time的meta-DTD和基于XML的DTD等一系列规范:
第一部分:概述和基本概念(ISO/IEC13250:2003);
第二部分:数据模型(ISO/IEC13250-2:2006);
第三部分:XML句法(ISO/IEC13250-3:2007);
第四部分:规范化(ISO/IEC13250:2009);
第五部分:参考模型(ISO/IEC13250:2003);
第六部分:简洁性语法(ISO/IEC13250:2003);
第七部分:图示法(ISO/IEC13250:2003)。
●ISO/IEC18048:Topic Maps Query Language(主题图查询语言)
●ISO/IEC19756:Topic Maps Constraint Language(主题图约束语言)
●XML Topic Maps(XTM)1.0,2001年在ISO/IEC13250:2000的基础上,结合当时XML语言的兴起,TopicMaps.Org采用XML编制主题图XTM,形成的规范。XTM1.0详细规定了用于创建主题图的XML标签集和相应的语法规范。此后,XTM1.0被加入到ISO/IEC13250:2003中,由JTC1/SC34负责修订。
(2)本体相关标准
共享复用是本体最主要的特征之一,应该本体的构建或形式化的表示应遵循约定的规范或标准。目前的本体相关标准主要是关于本体描述语言的,主要有RDF/RDFS、DAML+OIL、CycL及网络本体语言(Web Ontology Language,OWL)等。
总的说来,由于传统知识组织系统发展历史较长,大多形成了内容较为全面的编制标准,包括内容构建、显示与描述、管理等,有较完善的流程指导;而新型的知识组织系统标准目前大多是针对其描述、数据交换的,其内容构建还缺乏相应的规范指导。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。