基于实现跨库检索的数字资源整合技术探讨
屈冠军[1]
互联网数据中心研究表明,从2006年到2010年,全球信息总量将增长6倍以上。随着计算机网络信息科技的快速发展,数字资源已成为用户快速获取有效信息的重要来源。当数字资源在给用户带来便捷快速的查询途径的同时,也由于无限、无序、优劣混杂,缺乏统一的组织与控制,用户在面对浩如烟海的数字资源时会由于信息过载而无所适从。因此,如何有效地整合数字资源,让读者快速、准确地获取所需信息,是评价读者服务的一个重要指标。
一、数字资源利用现状和数字资源整合的必要性
(一)数字资源利用现状
目前,我国大多数图书馆已借助现代信息技术和设备开展了图书馆数字资源建设工作,数字资源的建设不仅为用户快速获取信息资料提供了极大便利,而且服务质量和水平也获得大幅度提升。但是,纵观国内图书馆的数字资源建设,大多数馆主要是购买现成的商品数据库,能够充分发挥图书馆的优势积极开发自建数字资源和建构相关数据库的图书馆却很少。主要表现在:
数字资源商资源收录原则过分强调“全”,造成了大量使用价值不高的信息存在,干扰了用户对信息的获取。
内容交叉重复,影响读者对信息的选择与获取,如中国期刊网与维普就存在大量重复问题。
虽然数量众多的数据库在一定程度上满足了用户信息量的需求,但由于这些数据库来自不同的数据商,各数据库的数据结构、发布方式、检索方式和显示风格等方面均存在差异,以至众多的数字化资源之间缺乏必要的联系,形成信息孤岛。
不同数字资源运行的环境要求也不同,有的可直接装在存储设备使用;有的只能放在光盘塔或光盘库使用,有的只能在单机上使用,有的根本不能在网络环境上运行。如CD、VCD、DVD光盘的使用。
不同的数字资源系统有着不同的编码结构和表达方式,数据格式的不同导致描述和组织标准的差异,导致检索途径和方法的不同;不同的数据资源使用不同的检索软件,检索界面风格各异,使用方法迥然不同,这些差异增加了读者使用的难度。
总之,图书馆数字资源数量快速增长,但整体利用率并不高。因其整体的无序化,内容组织程度不高,数字资源间交叉关联程度较低,用户需要掌握不同数字资源系统的使用方法,需要在不同的网络环境信息、空间之间穿梭。从某种意义上讲,数字资源量越大,给用户造成的负担也就越重。如果不对数字资源进行合理有效的整合,必然会使用户陷于不得门径而入的困惑境地,从而影响数字资源的有效利用。因此,数字资源发展到一定的阶段,整合势在必行。
(二)数字资源整合的必要性
图书馆数字资源种类繁多、应用系统各异,数据结构和组织方式多样,查询方式以及显示界面不同使得图书馆的信息孤岛问题日益严重,面对种种问题,以传统馆藏资源为依托,整合包括电子期刊、电子图书、网络数据库、自建数据库在内的各种资源,以统一的WEB访问方式提供给用户获取数字图书馆相关信息的检索平台,实现异构、分布式、跨平台、多样化资源统一检索和参考链接服务的资源整合门户网站,这是图书馆在数字化建设过程中面临的迫切任务。很多图书馆在数字化建设过程中,只注重管理手段和硬件设施的现代化,而忽视了最为重要的资源管理的统一。由于应用系统平台缺少功能强大的信息发布和检索工具,致使现有的馆藏资源和系统管理复杂化,从而制约了信息服务的功能和质量。用户为了查询到所需要的资料,不得不分别进入不同的检索界面,熟悉各种电子资源的访问方式,不仅无形中增加了用户的负担,而且也浪费了他们的宝贵时间,同时图书馆还要设立专门的参考咨询部门或定期开设文献检索讲座来满足不同用户的需要。以图书馆各种类型数字资源为中心,以为用户提供方便、快捷的信息服务机制为目的,围绕数字资源的加工建设、数字资源的存储和管理、数字资源的访问和服务提供一整套先进、实用、高效的解决方案,面对着瞬息万变的数字化环境,如何对数字化资源进行整合,使不同格式不同类型的数字资源实现无缝链接,并对信息资源的内容与范围进行评价、描述和挖掘,构建一个统一数据库平台,实现其整体最大效益,为用户提供更深层次的有效信息资源服务,已成为数字图书馆建设中必须做好的一项工作。
二、数字资源整合的内涵、技术、意义
(一)数字资源整合的内涵
数字资源的整合是指运用网络技术和应用软件把分散的信息资源连接起来构成集成化系统,以实现数字资源的集中管理、跨平台、跨数据库检索。换言之,也就是对不同的数字资源实现无缝集成,并依据一定的需要,对各个相对独立的数字资源系统中的数据对象、功能结构及其互动关系进行融合、类聚和重组,重新结合为一个新的有机整体,形成一个效能更好、效率更高的新的数字资源体系,让使用者通过一个统一的检索界面查询到几乎所有的馆藏数字资源,以此来满足不同用户的个性化需求。数字资源整合的范围包括馆藏书目、二次文献、电子图书和电子期刊、网络数据库、自建数据库、音像资料、缩微资料等全部馆藏资源,对日益增加的数字资源进行有序化管理,注重对数字资源的整体规划与管理,按资源的不同属性进行分类组织,重构信息资源的整体架构,整合图书馆全部数字资源,为用户提供更优质的服务。
从知识组织角度来说,数字资源整合是指相对独立的数字资源实现无缝链接并进而产生新质的一种知识组织方。它是一种数字资源优化组合的存在状态,其整合程度直接关系到数字资源能否被高效吸收与利用。而知识组织基于信息组织,是信息组织的深化。因此,将知识组织作为数字资源整合的理论基础是合适的,也是科学的。知识组织是把知识客体中的知识因子和知识关联表示出来,以便人们识别和理解知识。对于数字资源整合而言,知识组织原理就是对处于不同地方的数字资源进行精简、提取,发现其中的有用知识单元,按知识管理规则将其集成、优化,而后提供给用户一个统一的数据平台。从而实现在已有的信息基础上的信息增值。正确把握数字资源整合的内涵,有助于我们对信息整合做出科学合理的判断,并制定行之有效的策略。
(二)数字资源整合的技术
数字资源整合技术需要多种技术的支持,一般常用到的技术有以下七种。
1.检索技术
在全文检索方面应该在提高检索速度的同时,完善词检索,如增加基于内容的关联检索,要向字检索方向的发展,实现图文检索,检索结果实现多种智能排序等。
2.网络存储管理技术
采用先进的分布式网络存储管理模式对数字资源进行安全高效的存储、备份、调度、发布等统一管理,并且数字资源要有灵活的迁移性。未来的发展方向是实现海量数据面向不同应用及异构平台的虚拟化存储。
3.Web2.0技术
Web2.0技术的核心是分享。通过Web2.0技术,使用者可通过PC、手机、移动多媒体等多种设备,实现数据、文档、图片和视音频等内容的集中存储和资料共享。Web2.0技术的发展使得使用者的应用方式和可得服务更加灵活和多样。
4.XML技术
信息整合技术中进行数据交换是不可或缺的环节,每个应用系统都会产生大量数据,在与其他系统进行数据交换时,应该使用工业标准的数据格式。标准数据格式的最大好处是一次生成、随处使用。XML就是在这样的背景下诞生的,在媒体领域,XML的层次性、扩展性、跨平台性使它非常适于描述媒体稿件中的元数据和对象数据,但XML技术本身只是表述语言的框架,这个技术应用的关键是要建立统一的适合行业或领域的数据格式标准。
5.安全访问控制
要研究多种技术对数字资源、资源元数据、对象数据、特定字段、特定字段内容范围进行安全有效的访问控制,控制方式要灵活多样,能IP权限控制,能用户账号、密码权限控制。做到能用、好用、还能“用不出问题”。
6.数据加工技术
在数据加工方面要着重考虑自动化程度的提高和标准的统一实施等问题。要开发出各种格式文档批处理转换、合成等技术,要尽量向国际国家标准靠齐,用高效的生产方式生产出高质量的数据。
7.搜索引擎技术
搜索引擎是实现信息共享的基础工具之一,以前搜索引擎作为应用系统在各应用内部是独立构建的,随着应用系统产生的非结构化、半结构化数据量猛增,建立集中的搜索引擎集群势在必行,这类搜索引擎可实现对索引数据的统一管理,搜索引擎作为服务已经属于后端资源平台,借助中文知识管理系统处理后,这些统一管理的索引数据可以实现内容挖掘,自动建立内容关联或是自动分类、自动聚类,提高数据的使用效率和使用频率,搜索引擎未来朝着集群化、智能化、专业化的发展方向前进。
(三)数字资源整合的意义
数字资源整合实现了不同文献资源之间的沟通;最大限度地保持了知识体系的完整性;使用户获得高质量、可信赖的信息资源成为可能;拥有统一的用户交互接口,提高了检索效率及资源使用率,响应速度快;具有信息代理和信息推送功能;具有分类元数据管理功能;便于制定数字资源研发的标准化,按整合的原则要求来生产数字产品;便于图书馆做各方面的数字统计(访问量、使用率等),实时指导图书馆各环节的运作;以知识交流活动为中心的知识传递活动可以提高知识获取效率,增强读者利用资源的能力。
三、数字资源整合的途径
数字资源整合应采用先进的云计算技术,来提高信息的处理能力。云计算是分布式处理(Distributed Computing)、并行处理(Par-allelComputing)和网格计算(Grid Computing)的发展,是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大的网络服务。因此,数字资源整合离不开以下四个途径。
(一)基于OPAC资源系统的整合
这是数字图书馆最基本的数字资源,包括馆藏书目资源、电子图书、电子期刊的整合。我们可通过图书馆自动化管理软件进行MARC编目,将电子图书、电子期刊整合到OPAC检索系统中,并在OPAC系统中提供超级链接功能,以便读者在OPAC系统中检索到所需电子图书或电子期刊的同时可以直接打开全文。目前,网络上存在着大量的Z39.50服务器,这些服务器连接着世界上许多大型图书馆的馆藏书目数据。通过Z39.50协议,与其他图书馆的OPAC实现异构平台互检,用户只要采用一种基于Z39. 50的检索软件就可以在自己的计算机上同时对世界上多种含有Z39.50服务器的异构平台数据库进行检索,实现异构图书馆自动化系统之间的开放互联。
(二)购置数字资源的整合
建立NAS、SAN等架构的存储系统镜像站点,将购买的软件系统和数据库安装到镜像站点服务器及数据存储设备上,直接使用镜像站点上的数据库。采用这种形式不但安全、稳定、不受外部环境限制,浏览速度也快,而且还可对外提供服务,但建立镜像站点投入资金相对较大。
对于购置的光盘数字资源,由于并不全是结构化的数据库,需要通过技术手段转换出来再加工后重新建库。同时需要解决资源存储的问题,现在,一些新推出的磁盘阵列中已经普遍采用了750GB或1TB的SATA硬盘。目前已知存储密度最高的磁盘阵列可以在4U空间内提供高达42TB的存储容量。
最新一代LTO-4磁带的单盒磁带存储容量也达到了1.6TB(压缩比为2:1)。技术的不断进步推动存储向更高容量发展,而重复数据删除、压缩等技术的引入,可以进一步提升存储空间的利用率。从性能方面看,FC磁盘阵列已经逐步过渡到4Gb时代,已经有厂商推出了40Gb InfiniBand适配器产品,谷歌公司使用了可扩展的分布式文件系统Google File System(GFS)。不仅轻松突破了SAN的性能瓶颈,而且可以实现性能与容量的线性扩展。
(三)基于网络信息资源的整合
图书馆一般拥有较为丰富的电子资源和完善的网络环境,网络资源的数量多、更新速度快,有着传统的馆藏所不能及的地方,但其内容交叉重复,结构性差,缺乏应有的整合标准,给用户的使用带来了极大的不便。因此,图书馆在充分利用网络优势的同时,还应进一步加强自身建设,依照统一的行业标准,提高资源的易用性,给用户提供尽可能方便的服务。将所有网络资源尽量纳入统一的规划、统一的开发平台和统一的技术标准,以增强网络信息资源的通用性、互换性、兼容性和共享性。如书生之家推出的搜吧,就是一个基于SEP技术的综合性、标准化数字图书馆系统,第三代SEP技术突破性地将以“文档格式为标准”发展为以“调用接口”为标准,推出了UOML标准,用于解决软件行业用统一的标准规范对书面数据信息进行访问和处理的问题。通过UOML标准,实现对现有网络资源进行清理、归类和筛选,剔除陈旧过时的资源,及时加以补充、升级、改造和更新,使网络信息资源不仅完整配套,同时也与时俱进,保持新颖性和时效性。可以利用元数据对网络数字资源进行整合,元数据是指动态描述数字资源特征的信息集合。针对某条数字信息,元数据可以从题名、著者、主题等内容特征方面进行描述,可以从类型、格式等结构方面进行描述。这些内容与MARC著录相类似,但元数据所描述的内容比MARC的著录内容范围更广,可以说是MARC著录的延伸,是动态的、多维的著录,正适合网络资源更新频繁的特点。
(四)基于知识资源的学科整合
网络信息导航库是通过对某一学科所属的网络数据库进行整序和重组,按照方便用户检索的原则,组织成相互联系的树型知识资源系统,用户进入该系统后,即能获得所需的基本文献和资料,网络信息导航系统除包括图书馆购买的虚拟馆藏外还应包括Internet上的相关学科综合站点、专业站点、学术机构站点等。现在多数图书馆的数据库是按名称罗列于网页上,不能揭示其内容,用户也难于从名称上来判断它的学科属性,使用时摆脱不了随机性和盲目性,此导航系统是通过重新组织数据库按学科内容分类子数据库,提供按学科、关键词的检索功能,并为每一数据库提供超文本链接,点击即可进入目标数据库,用户进入此导航系统,检索某一学科时系统便会展现该学科相关的所有数据库,使用户一目了然。
四、跨库平台检索技术的实现
面对数字资源多,平台多,结构差异大的状况,有必要建立一个统一检索界面,集海量数字资源、检索速度快、资源定位准确性高,操作使用简捷一体化的信息服务平台,这种跨库跨平台检索方式,有助于用户节约时间和精力。跨库检索是采用跨库检索技术的系统,它向用户提供了统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,通过检索本地和互联网上的多个分布式异构数据库,并对检索结果加以整合,在经过去重和排序以后,以统一格式将结果呈现给用户,而且这一过程用户只需要以单一身份、单次登录和单一的检索方式就可以实现。
(一)跨库检索技术的实现
从技术实现的角度看,跨库检索有两种模式:联合检索和整合检索两种。
联合检索一般采用仿真键盘技术,通过这种技术将统一检索界面输入的检索条件自动保存下来依次传给多个数字资源系统,各数字资源系统启动各自的检索系统进行检索,并将检索结果在同一界面同时显示,浏览结果仍旧需要各自的浏览器。
整合检索同样不破坏各数字资源的数据库结构,但它将各数字资源的元数据提取出来,经过重新描述建成标准统一的元数据库,在此元数据库的基础再配套开发检索系统,形成统一检索界面,因为检索都在统一元数据库中进行,只是当用户需要浏览对象数据时才调用各数字资源原有的浏览器进行阅读。所以具有整体检索效率非常高、查全率查准率高,能智能排序、兼容能力、适用范围广、稳定性非常好等特点。
(二)跨库检索系统的实现
不同的网络数据库检索界面和检索方式都不相同,但存在共性,如检索途径、显示格式等这些基本功能都具备,大多数系统都支持布尔检索等,如果将这些共性形成统一的参数数据表,构成统一的检索界面,就能共享多个网络数据库的索引技术和检索技术。跨库检索可以通过数据库接口软件与不同的数据库直接连接、不同数据库间的格式转换等方式实现。最常见是异构数据库跨库检索系统,它通过统一检索界面,将用户输入的检索词、检索式按照各个数据库的要求转换成其能够接受的检索式和检索指令,提供给各个数据库进行检索;获取各个数据库返回的检索结果,并按照统一检索平台要求的数据格式进行转换;将转换后的数据提供给数据处理层进一步的处理,最后,以统一格式将结果呈现给用户。
总之,整合技术使不同的数字资源实现无缝集成,跨库检索技术实现了不同文献资源之间的沟通,二者对发挥数字图书馆作用,提高用户对数字资源的检索效率,节省用户者的时间,起到了积极作用。
参考文献
1.王凤华,董玉英.图书馆电子信息资源集成管理研究现状和实践进展[J].图书馆学研究,2006(9):34-38
2.李化祥,张宝珍.论我国高校图书馆数字资源的整合研究[J].内蒙古科技与经济,2008(16):29-31
3.陈杰.信息整合技术的理论与实践[J].中国科技传媒,2007(3):30-34
4.刘世影,杨雨师,吴戈.数字图书馆资源整合研究[J].现代情报,2007 (2):97-98
5.胡永强.异构数据库的跨库检索技术[J].青海科技,2006(13):59-61
原文刊载于《图书馆》2009年第6期。
【注释】
[1]屈冠军(1978—),男,汉族,本科,副研究馆员。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。