EBSCOhost数据库信息检索可视化服务研究
于淑霞[1]
EBSCO公司是美国著名的期刊代理商,代理发行全球4万多家出版社的2.6万种印刷本期刊和4000多种电子期刊。EBSCO公司从1986年开始出版电子出版物,共收集了4000多种索引和文摘型期刊以及2000多种全文电子期刊,其全文数据库Academic Source Premier(简称ASP)和BusineSource Premier(简称BSP)是CALIS最早引进的数据库(最初为Academic Search Elite和Business Source Elite)之一。EBSCO公司一直致力于为用户提供更加人性化、个性化的数据库服务,不但提供检索词提示、检索主题及期刊提醒等个性化功能,而且在外文数据库中较早使用信息可视化技术,实现检索过程及检索结果提供的可视化。本文将在信息可视化基础上讨论EBSCOhost数据库的信息检索可视化服务。
一、信息检索可视化
(一)信息检索可视化的概念
信息可视化就是利用计算机支撑的、交互的、对抽象数据的可视表示来增强人们对这些抽象信息的认知,其技术将为人们发现规律、辅助决策、解释现象提供强有力的工具。信息检索可视化是信息可视化技术的一种,其核心是把文献信息、用户提问、各类信息检索模型以及用检索模型进行信息检索的过程中不可见的内部语义关系转换成图形,展示在一个低维的可视化空间中,并向用户提供信息检索服务。换句话说,可视化信息检索实际上是提供一种可见的语义关系,使提问与检索结果以及检索到的各文献之间的关系可视化,提供一种有效的信息检索和反馈机制。
(二)信息检索可视化的优势
信息检索可视化在数据库检索中应用的优势体现在以下三个方面。
1.目前的信息检索机制中检索结果是线性的、一维的,一般是通过列表的方式向用户提供按照相关度大小或时间等排列的大文档集,用户很难从总体上了解整个结果之间的关系,只能根据所提供的列表信息逐篇查看,再确定是否要获取全文。可视化信息检索则可以通过检索过程及检索结果的透明化,帮助用户直接观察到信息的整体分布状况并在可视的环境下进行信息浏览,有助于用户分析、判断检索词对检索的价值,了解检索结果中文档之间、检索词与所检索到的文档之间的语义关系,从而更好地选择所需信息。
2.信息检索是用户主导的,通过与信息系统的交互获取满足自身相关信息需求的一个动态的认知过程,在检索过程中用户的信息需求会随着检索结果的获取而发生变化。目前的信息检索缺乏有效的反馈机制,忽视了用户在浏览时与系统的交互作用,难以激发用户探索新的检索途径以获得最需要的信息。可视化信息检索可以提供形象化且经过深入组织揭示的信息,有利于用户发现新的检索途径,快速找到感兴趣的信息。在检索过程中,可视化检索允许用户对检索结果进行动态可视的调整和过滤,增加了用户与系统之间的交互作用,使用户的信息处理能力和检索能力发挥到最大程度。
3.传统检索系统按其各自的相似匹配算法对文档与检索提问的匹配度进行判断,并计算出文档之间的相关度。列表基本上是按照相关度进行排列,但因各个搜索引擎的排序是根据自己的关键词权重计算,与用户的理解存在差异,有时真正符合用户需要的文档可能出现在检索结果列表的后面而被用户忽略,从而漏掉重要的信息。另外,用户难以判断检索出的文档与多检索词的检索提问中哪个检索词相关度更高,也很难将不同检索式的检索结果进行比较,因而无法在检索过程中进行过滤。可视化信息检索用二维或三维的图形显示检索过程与检索结果,用户可以通过形象化的直观显示参与检索过程的控制,进而确定一个词对标引和检索的价值,多角度、多层次了解检索要求与文档之间的语义关系。
二、EBSCOhost数据库信息检索可视化服务
EBSCOhost数据库在传统初级检索和高级检索的基础上,增添了可视化检索服务。用户点击可视化检索标签“Visual search”即可进入可视化检索界面,在“Find”检索框中输入检索词进行较宽泛的主题检索,检索结果则以按主题分布的交互式、可视化地图形式呈现给用户。
(一)可视化检索界面布局
EBSCOhost数据库的可视化检索界面在默认状态下分割为两个窗格,左边是检索结果可视化地图窗格,右边是文献信息窗格,界面中间分布有“向左”和“向右”两个箭头,用户可以根据需要将任一窗格调整为全屏或半屏大小。
(二)可视化地图的组成及使用
EBSCOhost数据库检索结果可视化地图是由各种颜色的圆形和方形图案组成的。一个圆形代表检索结果中的一个主题,一个大圆可以包含若干小圆,点击圆的内部即可将该圆放大,同时隐藏其他部分,使用户可以浏览该主题的详细情况,直至点击到主题树的最后一级。方形代表每篇具体文献,也就是主题树的最后一级,用户将鼠标放在每一个方形内部,即会出现包括文献题名、作者、出版社、出版日期及是否全文等信息的方框,用户根据需要点击方形内部,即可在右边窗格获得更为详细的内容,并进行文献下载等操作。根据多重归类原则,一篇文献可能出现在多个小主题中。
(三)可视化地图的功能按钮及使用
EBSCOhost数据库的检索结果可视化地图提供三个功能按钮。一是Hide Filters:点击该按钮,会出现一个下拉过滤器,用户通过填写更加准确的题名关键词、限制文献出版时间或全文过滤掉不符合需要的信息,将检索结果精确化,并随用户操作自动更新。二是Zoom Back:点击该按钮,可视化地图将从当前级返回至上一级视图。此外,用户点击当前级(圆形或方形)视图的外部,也可返回至上一级视图。三是Top Level:不管用户处于地图的哪个等级,甚至是用户已对检索结果进行了过滤操作,该按钮使用户随时可以返回到最高等级即第一次检索所得结果的视图。
(四)操作实例
本文以“Information Visualization”为检索词对EBSCOhost的学术期刊集成全文数据库(ASP)进行可视化检索操作。
1.检索结果主题分布
图1 “Information Visualization”检索结果可视化全图
图2 “资源管理”子主题可视化图
在“Find”检索框中输入“Information Visualization”,点击“search”按钮,左边的检索结果可视化地图窗格将出现包含10个圆圈的图形(见图1)。系统将检索结果按主题分为10类,即计算机制图(Computer Graphics)、计算机科学(Computer Science)、计算机软件(Computer Software)、计算机系统(Computer Systems)、一般(General)、信息技术(Information Technology)、资源管理(Resources Management)、检索系统(Retrieval Systems)、可视化认知(Visual Perception)、其他(More)。
2.子主题显示
用户可以根据系统对检索结果的分类进一步确定自己的检索领域,若需要“信息可视化技术与资源管理”的文献,可以点击“资源管理”圆圈的中心,系统将放大这个主题的视图(见图2)。“资源管理”包含6个分主题,分别是:计算机系统(Computer Systems)、计算机软件(Computer Software)、计算机科学(Computer Science)、计算机可视化设计语言学(Visual Programming languages Computer Science)、可视化认知(Visual Perception)、数据库检索(Database search)。
3.类信息呈现
点击各类所属圆圈,即可到最终文献级,如点击“数据库检索”类,就获得相应视图(见图3)“数据库检索”类中包含3篇文献,点击代表文献的方形图案,右边的文献信息窗格即出现有关文献的文摘及其他详细描述(见图4)。
图3 “数据库检索”子子主题可视化图
图4 最终文献图
4.过滤检索
由图2可知,“资源管理”主题包括28篇文献,其过滤功能演示为:使用Hide Filters功能进行过滤检索,在检索框“Title Keyword”栏中输入“library”,检索结果自动更新,最终获得4篇题名中含有“library”的文献(见图5)。
图5 “资源管理”子主题“Library”过滤图
三、EBSCOhost数据库信息检索可视化服务的改进
对EBSCO检索系统而言,可视化检索是其推出的一种全新的检索方法,提供了更为丰富的直观信息,有利于用户发现新的信息检索模型,提高了数据库检索系统界面的用户友好性。笔者结合个人的检索实践,对EBSCO数据库信息检索可视化服务提出有待改进的建议。
1.提高检索速度
传统的信息检索是通过将检索式转换成查询向量与文档向量进行简单的词汇匹配,计算出检索式与文档间的相似度,将相似度达到一定阈值的文档作为检索结果返回给用户。相比之下,可视化信息检索还需要将传统信息检索中所涉及的信息进行视图映射和转换后返回给用户。要在二维空间中显示出文档间的相似度,需要对高维文档空间降维。笔者通过多次实践发现,在相同的网络环境下,可视化检索的速度相对慢了一些。如EBSCOhost数据库可视化检索中第一次检索的完成需要15s,等待时间较长,而完成一次初级检索所需要的时间是11s。对用户而言,检索速度是用户利用数据库的关键因素,如果传输速度太慢,会降低用户兴趣,使原本有价值的信息因等待时间过长而失去价值。因此,提高检索速度是更好地发挥可视化检索人机交互优势的有效途径。
2.增加检索途径
丰富的检索途径为用户获取所需要的信息提供了更多的选择,也是提高数据库系统利用效率的重要条件。EBSCOhost的初级检索和高级检索都包含了关键字、出版物、科目术语、参考文献、索引、图像等多种检索途径,而可视化检索只能通过关键词、时间和全文来限制检索,缺乏多样的检索途径。EBSCOhost的可视化检索提供过滤器可以精确检索结果,实现二次检索,这在一定程度上方便了用户进行多样的选择。
3.实现文献内容可视化
任何一个可视化检索系统都需要完成对两个方面的内容的确定:一个是可视化对象,另一个是可视化的表现形式。EBSCO-host数据库系统的可视化对象是文档,采用几何图形作为表现形式。而目前EBSCOhost的可视化检索只是实现对整个检索结果主题分布的可视化表现,并没有对文献内容进行深入分析以实现检索词与每篇文献相关性的可视化。要实现文献内容的可视化,就要依靠语义网络、汉语分词、句法分析、同义词关联等信息处理技术,以最大程度地了解用户的信息需求,并结合数据挖掘技术、地理信息系统、统计分析系统技术,改善可视化技术的信息呈现方式和形式。
参考文献
1.曹锦丹,王丽伟,齐艳丽.可视化技术在网络信息检索中的应用[J].情报杂志,2005(8):113-116
2.么新英.传统信息检索与可视化信息检索之比较[J].科技情报开发与经济,2003(3):1-2
3.文燕平.www信息检索可视化实现原理研究[J].现代图书情报技术,2005(4):10-13;50
原文刊载于《科技情报开发与经济》2009年第19卷第26期。
【注释】
[1]于淑霞(1982—),女,汉族,硕士,馆员。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。