5.1 “内核受控,外壳非控”的自然语言叙词表模式
信息检索系统有四种常见词汇控制方式[1]:
(1)在标引与检索阶段均对检索词汇进行控制。这种系统通过“先控词表”,如分类表、标题表、叙词表等对词汇进行控制,采用人工方式标引和检索,所以系统的检准率和检全率最高。这种完全由人工控制的方式决定该系统需要投入大量人力物力,成本高,检索周期长。
(2)在标引阶段对词汇进行控制,但在检索阶段不予控制。即:用户可用自然语言进行检索,系统通过一种与受控词表相连接的自然语言接口(如入口词表等),把自然语言转换为受控词汇。专业检索人员使用这种系统时,能实现较高的检索效率,但对于不熟悉词表的普通用户来说,效果则不尽如人意。
(3)在标引阶段不实施任何控制,但在检索阶段实施不严格的控制。即:使用“后控词表”作为转换工具,罗列自然语言检索标识供选择以辅助检索。后控词表类似于入口词表,主要由控制词和自然语言词汇构成,具有自然语言表达概念准确灵活等优点,又保留了受控词表的特点,用于自然语言检索系统可以减轻检索者编写检索式的智力负担,自动扩大检索范围。显然,利用该系统检索时能得到较高的检全率,但由于自然语言检索的本质弊端,使检准率无法得到保障。
(4)在标引与检索阶段均不实施控制。目前很多搜索引擎和网站都采用了这种检索机制,即全文匹配模式。检索系统采用全文索引的方式来标引文献,而对用户输入的自然语言进行匹配查找,将命中的都返回给用户。这种检索系统不需任何人工介入,投入少,系统反应迅速。但会返回大量无用信息,检准率低,正如张琪玉教授所评论的:“这种纯自然语言检索,如果说不是不可能的,也将是低水平的”。
为了适应网络环境本身及其用户特点,情报检索语言需要不断发展和变革,未来的情报检索语言应该能满足以下基本条件:允许用户使用自然语言进行检索提问;系统能够实现自然语言与人工语言之间的自动链接和转换;支持标引、查询、浏览和检索等信息组织和检索全过程。自然语言与人工语言的特点决定它们在提高检索效率方面具有天然的互补性,如果能扬弃二者的优缺点并将二者有机结合,从理论上讲,将能达到最佳的检索效果。
基于以上设想,在上述已有信息检索系统模式基础上,侯汉清于2003年在其手稿中提出了一种新型的“内核受控,外壳非控”词表模式(图5-1)。该系统的“外壳”标引和检索两端均不采用任何词表,信息资源采用自然语言标引和检索;在系统的“内核”运用知识库和自动化处理技术实施词汇控制,将自然语言转化为人工语言,以便实现概念检索和资源导航。“也就是说,标引员可以采用自由标引方式,用自由词、关键词进行标引,通过计算机转换为受控的主题词;用户可以用自然语言检索,包括拟写提问式,系统将用户使用的关键词或自然语言语句转换为受控的主题词,二者进行匹配”[2]。
图5-1 “内核受控,外壳非控”词表模式的使用
“内核受控,外壳非控”词表模式在标引和检索两端均采用自然语言,而在系统内部嵌入人工语言,进行两端的自动控制,是一种具有自然语言优点又糅合了人工语言优点的高级情报检索语言模型。在此理论基础上,本文提出了一种自然语言领域叙词表自动构建方法,探索一条提高网络检索效率的新途径。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。