1.3.4 集成词表
最早出现的集成词表是世界上几个主要联机检索中心编制的数据库索引,如美国DIALOG的DIALINDEX和BRS的CROSS。它们分别列出了所收集的数以百计的数据库上出现的全部词汇及其标引频率,以便用户选择最适合的数据库进行检索。然而,这些数据库只是把众多的叙词表的词汇及其标引频率汇集在一起,而没有显示这些词汇之间的关系。
美国妇女教育交流网(WEECN)从许多机读数据库中抽出关于妇女教育机会均等方面的文献条目,编成“第三代数据库”。“词表指南”将每个词的同义词、近义词和相关词都排列出来。这种类型的词表指南结构松散,但是用途很广。利用它查询原始数据库以及衍生的第三级数据库都很方便,并且有助于把各个数据库中的兼容转换为教育资源情报中心(ERIC)的检索词汇。
1976年,美国巴特尔哥伦布实验室通过建立一个协议转换指南(即一个同义词表),将10种能源词汇表自动集成,形成一个较为精致的词表——“兼容转换系统”(VSS)。用户利用VSS,可以选择合适的词汇在数据库中进行检索。后来,VSS的收录范围由10个数据库发展到16个,而且用于多个语种,整个工作于1983年完成。VSS最初的目标是想建立一个转换指南或“同义词表”,可以使一个能源方面的数据库向另一个数据库进行联机转换。通过实验发现,词表的大量协调工作都可用计算机自动进行。多语种转换可达到与单语种转换相同的兼容水平,不同学科领域的兼容转换效率不一样,如社会科学词汇比其他学科词汇容易实现转换。VSS通过单复数、词形和同义词等转换,使叙词表的转换水平大幅度提高,从而实现叙词表之间的自动转换。VSS方法的最大优点在于简单,容易实现,能够充分发挥计算机的性能,尽可能减少人工判断工作量[14]。
1980年,UNESCO倡导“建立社会科学情报检索语言兼容性的指南”,召开了编制社会科学集成词表专家咨询会议,讨论了UNESCO建立社会科学集成词表的计划。1981年,Riggs对社会科学概念术语进行了较为深入的研究。之后,多位专家发表了一系列关于社会科学检索语言兼容性的论文。其中最有影响力的是International Classification上发表的三篇文章[15]。但由于经费等原因,社会科学集成词表最终未能完成。
1982年Dahlberg提出了概念兼容(Conceptual Compatibili ty)理论,设计了一种新的兼容工具——“兼容矩阵”(Compatibili ty Matrix),把若干种检索语言与BC2(《布利斯书目分类法》第2版)的类目对照,列出等值兼容及近似兼容的概念。其目的主要是建立不同检索语言词汇的动态兼容,不同等级关系的概念兼容。这种工具曾应用于社会科学和文化科学领域的检索语言兼容转换。1994年,波兰用这种方法进行了三个国际检索系统四个学科领域的对比分析。“兼容矩阵”有较好的应用效果,但其实现非常复杂。以上系统只是用于解释这种方法如何应用,并没有完善成一个真正的实用系统。
1987年,美国医学图书馆报道了其一体化医学语言系统(UMLS)的进展情况,进行了包括MESH、SNOMED、CMIT和PDQ词表的联结实验,构造了一个超级叙词表。这种超级叙词表既保留了源词表中的词汇,又增加了一些源词表所没有的信息。UMLS除超级叙词表外还建有语义网络和知识资源。1996年增加了专家词典,并增补了源词表、语义类型和知识资源。UMLS系统已在国际上具有较大的影响,但其实现相当复杂。
从1991年起,Stella等人开始设计一个包含CAB、AGRIS和AGRICOLA三个词汇表的集成词表系统。他们用了近五年的时间将三个词汇表改造成分类主题一体化词表,然后再将三表进行比较分析[16]。1993年,波兰国会图书馆建立了STEBIS集成词表,用来帮助用户对该机构的检索系统进行跨数据库检索。STEBIS将10个词汇表(以EUROVOC为基础编制)中的词汇集中到一个文件中,每个词汇的后面都指示含有该词汇的词表,用户可直接查阅某词汇表中该词汇的上下级关系等情况[17]。
1995年9月,ISKO和TIP(International Society for Knowl edge Organization and the Society for Professional Information)组织召开了由12个国家、60多位专家参加的信息检索系统兼容性与一体化研究国际学术研讨会(The Research Seminar on Compat ibility and Integration of Order Systems)。这是自1971年以后召开的又一次专门讨论检索语言兼容性的国际会议。这次会议总结了过去40年来情报检索语言兼容性问题的研究状况,提出了一些新的检索语言兼容理论和方法,介绍了一些已经投入使用的集成词表和集成词表软件。这次会议的召开意味着情报检索语言的兼容性问题又成为研究热点。集成词表被认为是联网环境下解决叙词表之间转换的最实用、最有效的工具。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。