张志武
(南京邮电大学图书馆,南京邮电大学科技情报研究所,江苏南京 210003)
【摘 要】 随着社交网络、云计算、移动互联网的迅猛发展,数据产生的范围、方式、途径发生了翻天覆地的变化,全球进入到了大数据时代。文章阐述了大数据给图书馆带来的挑战,分析了大数据知识服务的典型特征,并结合图书馆的工作列举了知识发现服务在图书馆的具体应用。
【关键词】 大数据;知识发现;知识服务;数据挖掘
1 引言
“大数据”概念最早出现于2008年9月的Nature杂志上,2012年美国奥巴马政府宣布推出的“大数据的研究和发展计划”,真正确立了“大数据”作为未来信息技术发展核心地位。大数据时代,数据将成为社会资源的一部分被加以重视,基于数据的处理、分析、挖掘等服务都将被信息服务机构所应用和开展。随着我们赖以生存的环境日趋复杂、动态与不确定性信息越来越多,现有的技术已经逐渐无法解决当前的复杂系统问题,这对承载着知识存储、组织、开发与传播重任的图书馆造成了强烈冲击,图书馆已经感受到其所带来的转变和创新知识服务的巨大压力[1]。很多学者已围绕大数据环境下的数据存储、挖掘与知识发现、综合集成、人机交互和可视化等前沿技术展开了广泛的研究[2~4]。基于以上考虑,笔者从图书馆知识发现服务的角度,论述了大数据为图书馆知识发现服务带来的挑战,分析了大数据知识服务的典型特征,列举了图书馆工作中知识发现服务的应用,以引起业界学者对相关问题的共同关注与探讨。
2 大数据给图书馆带来的挑战
2.1 大数据特征
大数据就是能从各种结构化、半结构化和非结构化数据中,快速获取有价值信息的能力。它具有四种基本特性:(1)数据量大;(2)数据多样性强;(3)处理速度快;(4)价值密度低。而RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据将会成为图书情报机构未来大数据的几个主要来源[5]。
2.2 大数据给图书馆带来的新挑战
最早将“大数据服务”引入图书馆中并着手实施的是Harvard[6]。结合现阶段信息技术的发展状况及信息资源的利用需求,大数据给当前图书馆各个方面带来巨大的冲击及挑战。
(1)数据类型增多、数据量增长及数据复杂性的增强给现有的存储能力及计算能力带来巨大挑战。第一,计算能力、存储能力的增强远远落后于数据量的增长及数据复杂性的变化;第二,物联网、传感网、移动互联网及云计算等信息技术的飞速发展,使得数据移动较之以往更为频繁,而数据的移动亦成为信息资源管理最大的开销;第三,可信计算、高可靠性、高可扩展性、高可用性的规模、语义、统计及预测性等数据分析技术、新的数据表示方法等都是亟待解决的技术问题;第四,用户流失分析及价值分析促使图书馆不得不寻求新的解决方案。价值质疑、技术障碍等重大危机已经严重困扰着图书馆,高校教职工已经逐步弱化了图书馆的存在价值,用户流失异常严重,而大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的生存危机。例如,美国Hiptype公司用大数据分析技术来研究电子书读者阅读习惯和喜好,这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为的智能分析引擎。
(2)超越常规报表分析的多维度分析需求的挑战。与传统的常规报表分析相比,大数据分析正向实时分析、知识预测的深度分析、知识拓展的广度分析等多维度分析转变。图书馆也就面临着更加复杂、更大规模的多维度分析需求来了解现有知识发现服务体系发生了什么,更需要利用大数据分析对将要发生什么进行预测和分析。
(3)对图书馆的软硬件资源、网络资源、人力资源等基础设施带来巨大挑战。考虑到经济成本、人力成本等要素,许多知识服务机构将软硬件资源的建设由以前的追求高端服务设施向中低端软硬件基础设施构建的大规模计算机集群转变,对支持半结构化、非结构化和复杂结构化的海量异构数据的存储与计算技术和能力提出了更高要求,从而要求将大数据的存储、计算过程转移到为大规模分布式数据密集型应用而设计的基础设施中,将分块的大数据集复制到集群服务器节点进行处理的网络基础设施,构建具有保护高度分布式基础设施和数据的可信应用体系的软硬件基础设施,从而帮助建立更加灵活的、智能的网络化信息资源智能组合方式,并且培养专业服务能力更强、专业面更广、技术要求更高的图书馆馆员。
3 大数据知识服务的典型特征
与已有的信息服务模式相比,大数据知识服务越来越趋向于个性化、自主化、虚拟化、智能化、透明化和体验化,知识创造模式、组织模式、传播模式和应用模式也呈现出规模化、集约化、数字化和网络化的趋势,在数字化、网络化、规模化和集约化等共性技术特征的基础上,大数据知识服务更为突出的典型特征可以概括为以下几点[7]:
(1)是面向智慧服务和自主需求的知识服务。大数据知识服务模式实现的核心是知识服务全生命周期活动中用户、技术、管理、知识、能力、资源和过程的有机集成和优化。为此,大数据知识服务体系融合了物联网、传感网、云计算、可信计算和信息物理融合系统等新兴信息技术,提出要实现大数据用户、技术、管理、知识、能力、资源和过程的全方位、全生命周期地接入和感知。
(2)是不确定性服务。大数据知识服务对于用户大数据处理需求不具备唯一解,而是用大数据生态系统中所提供的技术和方法,依据用户大数据处理需求,形成知识服务解集合。大数据用户通过大数据知识服务平台提出大数据处理需求,并按用户自主需求构建的大数据知识服务组合模型,部署服务实施方案。
(3)是强调用户参与的知识服务。大数据的数据来源、知识服务能力、服务资源、服务过程及知识本身都是嵌入到网络和大数据环境中的,且所有大数据主要都是来自于大数据用户,使得大数据知识服务关注的重心应该转移或回归到用户自身的需求。在大数据知识服务模式下,强调用户参与不仅仅局限于传统的用户提出需求和用户评价,而是渗透到大数据知识服务过程及大数据自身全生命周期管理的每一个环节。
(4)是支持按需使用、按需付费的知识服务模式。大数据知识服务是一种由用户需求驱动的、按需付费的知识服务新模式。用户往往需要通过海量非结构化、半结构化数据了解现在发生了什么,甚至需要利用数据预测未来将要发生什么,以便在行动上做出利于发展的主动准备。在这些过程中,用户不需要过多关注大数据处理的细节,只需要根据自身的数据处理需求调用或知识服务组合,占用大数据知识服务资源,并支付相应的费用即可。彼此之间的关系是一种按需使用、按需付费、用完即解散的关系。
(5)是共性技术目标与异性技术特征相辅相成的知识服务模式。大数据知识服务通过第三方构建服务平台,将大数据获取、存储、组织、分析和决策过程中所涉及的所有资源、知识、能力及过程都虚拟化为大单项数据知识服务,再聚合成大数据知识服务虚拟资源池,进行统一的管理与处理。针对不同的行业、领域或不同需求,大数据的获取、存储、组织、分析和决策的管理和处理方法有共性,但必然也存在着异性,因此,针对不同行业、领域及大数据处理需求,就需要在原有共性技术体系的基础上,形成专业性较强的专业化大数据知识服务体系,从而针对独特的专业化要求,形成其独有的大数据异性技术体系。
(6)是基于知识、能力、资源、过程共享和交易的知识服务模式。与传统的知识服务模式相比,大数据知识服务模式共享的不仅仅是服务资源,还有知识、能力及服务过程。随着大数据时代的来临,对大数据获取、存储、组织、分析和决策过程进行管理的基本策略不是移动数据,而是将计算、知识及服务推向数据,在相应的知识库、专家库、数据处理模型、数据处理框架的支持下,实现资源、知识、能力及过程的虚拟化封装、描述、发布、配置、调用和显示,真正实现大数据获取、存储、组织、分析和决策过程中的知识、能力、资源、过程的全面共享和交易。
(7)是基于群体创新的知识服务模式。大数据知识服务旨在促进管理、分析、可视化和从大量多样分散异构的数据集中提取有用信息,并充分利用群体创新的力量,创造有意义的网络基础设施以及一体化水平的数据和工具,以支持科学和教育。
4 大数据环境下图书馆工作中的知识发现服务
大数据环境下图书馆提供的知识发现服务,到目前为止基本上只是对显性知识进行组织存储和开展满足显性知识需求的用户服务,而开创满足用户隐性知识需求的服务新领域是图书馆面临的机遇和挑战,可以分为三类:(1)知识挖掘。把各类现有信息源存储的信息知识中客观隐性知识发掘出来,凝聚成对相关事物运动及相互规律的揭示。(2)知识显化。把个人的隐性知识引导出来,现代图书馆信息咨询服务中专家指南服务是其基础。(3)知识提炼。把融入日常工作活动中的隐性知识提炼出来,结晶成明确表达的显性知识[8]。
4.1 图书馆用户管理中的应用
在图书馆管理中利用知识发现技术,可以理解用户访问的目的和趋势,了解用户的兴趣和需求,改进服务质量,变被动服务为主动服务。图书馆管理主要应用了三种数据挖掘方法:(1)对于读者感兴趣的图书进行关联挖掘可对用户借阅行为进行分析;(2)使用时间序列挖掘方法对流通数据库或Web日志进行挖掘;(3)利用分类模式挖掘方法对历史数据进行挖掘。可以利用知识发现的理念加深用户服务,现代图书馆管理、知识管理等都提出了人性化服务,图书馆如果加强对用户的人性化服务,将能更好地挖掘出用户的隐性信息(其中很多可能使用户自身都没有注意的),转化为图书馆的知识,这样将为图书馆的针对性服务提供良好的前提。
4.2 提供图书馆网上信息服务方面的应用
图书馆可以利用信息搜集器技术搜集信息并进行分类;为用户提供个性化主动服务,为特定用户群建立个人档案库;做好图书馆网页建设,建立相关的链接和导航;经常适当地调整检索策略;搞好网络信息用户教育。图书馆可以利用自己的设备、资料、人员优势开展良好的网上信息咨询服务:科技查新;代查代检;定题服务;原文传递等。还应该定期下载网上最新的信息和科技成果,以为用户提供参考和指引。
4.3 查新咨询服务中的应用
查新咨询服务的任务是如何找到与需求相吻合的网络相关信息,分为三步进行:(1)网络信息的挖掘;(2)网络信息的序化;(3)网络信息的应用。为了增强查新服务的准确性、有效性、快捷性,研究知识发现技术是可靠的信息资源保障条件之一,使查新咨询论证课题实现服务智能化、高效化,将极大促进查新工作的开展。
4.4 数字图书馆中的应用
知识发现技术可用于数字图书馆的信息发现与信息提供的全过程。知识发现在信息发现中有以下应用:(1)Web数据开采。难点在于文档自动分类和自动摘要,目前相应的系统开发成功,如南京大学研制的CTDCS系统用于自动分类和上海交大的王永成等开发的系统用于自动摘要;Web数据开采也有网络智能体和智能信息捕捉器两种实现形式。(2)多语种信息发现。作为数字图书馆项目的一个工作组,MIDAS在多语种电子文档获取、集成机器翻译和多语种信息检索方面取得阶段性成果。(3)学科协同检索。(4)智能搜索引擎。
5 结语
大数据时代的到来及大量相关技术的广泛应用,将使得海量、复杂、多结构数据的即时获取、精确分析、深度挖掘成为现实,为图书馆等信息服务机构的服务手段、服务理念、服务思维、服务基础、服务载体、服务管理等带来支持与改变,也将为正在国内外图书馆界兴起的知识服务带来诸多服务增长点[9]。但如同Web 2.0、云计算等技术一样,任何技术都是一把双刃剑,大数据在为图书馆带来全新的技术、方法、平台、理念来帮助和促使人们通过数据整合、数据分析、数据挖掘从而揭示出数据的内在价值,并且实现数据的价值增值的同时,也给图书馆带来了诸多的其他问题。如大数据的应用在推动服务向以数据为中心的密集型、创新型服务转化的过程中,用户个人隐私却无处遁形了。包括图书馆在内的社会服务机构,若想在大数据时代有所发展,解决诸如此类的相关问题也就显得非常必要和紧迫。
参考文献
[1]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[2]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012(9):8-15.
[3]王珊,王会举,覃雄派,等.架构大数据:挑战、现状和展望[J].计算机学报,2011(10):1741-1752.
[4]李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):29-34.
[5]覃雄派,王会举,杜小勇,等.大数据分析:RDBMS与MapReduce的竞争与共生[J].软件学报,2012(1):32-45.
[6]郭自宽,张兴旺,麦范金.大数据生态系统在图书馆中的应用[J].情报资料工作,2013(2):23-28.
[7]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.
[8]杨江平.知识发现及其在图书馆的应用研究[J].图书馆学研究,2008(7):92-93.
[9]王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2):74-77.
【注释】
[1]本文系2013年学术年会论文。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。