数据挖掘在信息资源管理中的应用及研究进展(1)
张玉峰 董坚峰 胡 凤
(武汉大学信息资源研究中心)
【摘 要】随着现代信息技术的不断发展,数据挖掘在信息资源开发与管理中发挥着日益重要的作用。围绕数据挖掘在信息资源获取、处理、组织、检索、分析、服务等领域的应用,国内外学者和机构进行了大量的研究和实践。本文主要从数据挖掘在信息资源采集、分析、检索和服务等方面的应用概述了国内外研究进展,并提出了应用数据挖掘进行信息资源智能管理的研究展望。
【关键词】数据挖掘 信息资源管理 信息资源 信息资源 智能管理 知识挖掘
Research Progress of the App lications of Data Mining in Information Resources Management
Zhang Yufeng Dong Jianfeng Hu Feng
(Center for Studies of Information Resources of Wuhan University)
【Abstract】With the gradual development of moderninformation technology,data mining throws important impact on the developing and management of information resources.Focusing on the applications of information resources collection,processing,organization,analysis and service of data mining,domestic and international scholars and institutions have conducted a lot of research and practice.This paper summarizes the research progress of the applications of data mining in information resources from the aspects of collection,analysis,retrieval and service,and puts forward some further research prospect of applying data mining to realize the intelligently management of information resources.
【Keywords】data mining information resources management information resources information resources intelligentmanagement knowledgemining
1 引言
信息资源的开发是信息资源管理的重要环节和建设重点。随着现代信息技术特别是网络技术的飞速发展,信息资源不断涌现,人们收集、存储、传输数据的能力也不断提高。与数据出现爆炸性增长情形相比,对决策有价值的知识却非常匮乏,信息资源的开发与管理工作难度逐步加大,迫切需要新的技术方法。数据挖掘技术正是在这一背景下诞生的一门新学科,其广泛应用于商业、医学、金融、电信等各个领域,逐步从单纯的理论研究发展成为信息管理领域中一种实用性极强的技术。在全球信息化的知识经济时代,数据挖掘这一新兴的前沿交叉学科引起人们的高度重视,全世界掀起了研究数据挖掘及应用的热潮。专门的研究机构不断出现,相关的学术著作成倍增长,许多学术刊物和国际会议都大幅度增加了相关研究内容和出版物,专门的学术期刊和国际会议也开始出现,互联网上也出现了众多的相关研究组织和文献。理论与实践的种种努力在局部上解决了“数字爆炸”和“知识缺乏”矛盾的一些基础性问题,但从根本上来看,目前数据挖掘方法在信息资源管理中的实践应用中仍存在着许多问题,尤其是海量数字信息资源的分析和知识发现能力还远远落后于数字信息资源的增长速度,深层语义知识挖掘的现状远远不能满足用户的知识需求。有鉴于此,本文结合数据挖掘技术的研究进展,围绕信息资源管理中信息资源的获取、处理、组织、检索、分析、服务等各个环节,概述了数据挖掘在信息资源管理中的应用,并提出了应用数据挖掘进行信息资源智能管理的研究展望。
2 数据挖掘研究进展
2.1 数据挖掘研究概述
数据挖掘,又称知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的但又是潜在有用的信息和知识的过程。1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge Discovery in Database)技术,该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应对信息爆炸的实际需要。到1995年,在美国计算机年会(ACM)上,提出了数据挖掘的概念[1]。
数据挖掘源自于人工智能领域,是机器学习与数据库技术结合的产物,在研究与实践进展过程中,逐步融合人工智能、智能信息处理、语义Web等技术,不断提高模拟人类智能的层次,促进了数据挖掘技术的进一步智能化发展。
数据挖掘研究与应用初期,主要使用统计分析方法实现分类、聚类、预测等挖掘功能。统计分析主要包括回归分析、贝叶斯方法、判别分析、聚类分析等[2]。例如,著名的SAS、SPSS和Stargraphis等统计软件的数据挖掘功能均建立在统计方法之上。这些方法已广泛应用并解决了许多实际问题,但因其主要定位于定量的统计型数据特征,因而存在着先天不足,不能对概念层面中的变量及其联系进行描述和解释。
机器学习是数据挖掘的主流技术,主要包括归纳学习方法(决策树、规则归纳等)、类比学习、基于案例推理的学习、遗传算法、贝叶斯信念网络等,已经用于关联规则、分类/聚类模型、序列模式等模式发现中并取得了丰硕成果。但是,机器学习多适用于结构化数据源,对于大规模数据和非结构化数据使用效果不佳。
随着数据挖掘研究及应用的深入发展,引入了智能信息处理技术。智能信息处理是人工智能技术与信息技术结合的产物,广泛地模拟人的智能来处理各种复杂信息,包括非结构化信息、海量信息、不完全信息、不确定信息、模糊信息、多媒体信息、时间空间信息、认知信息以及知识信息。智能信息处理技术与方法主要有数学统计、模糊信息处理、粗糙集信息处理、神经网络信息处理、进化计算,还有基于信息与知识管理的大规模智能信息处理技术,如信息分析、分类、智能检索、智能搜索等。这些技术的思想与算法为数据挖掘的发展提供了新的思路,对于传统统计分析和机器学习技术难以处理和无法处理的问题,特别是对高维非线性随机、动态或混沌系统行为的分析及预测实现了有效的处理。
国际信息处理联合会所组织的国际智能信息处理(International Intelligent Information Processing)历届会议均将数据挖掘作为重要的议题,并出版了系列论文集。国际智能信息系统研究组(Intelligent Information Systems)从2003年开始每年专门出版以“智能信息处理和Web挖掘新趋势”为题的评论集,积极推动智能信息处理技术在数据挖掘中的应用。Zhang Yan-Qing等[3]提出将模糊Web智能技术用于模糊Web数据挖掘系统,Wang Lipo,Fu Xiuju[4]提出用计算智能的方法实现数据挖掘。中国科学院计算技术研究所智能信息处理重点实验室史忠植研究员[5]编著了《知识发现》,较早地应用智能信息处理方法研究知识发现理论与方法,研制了具有自主知识产权的知识挖掘平台MSMiner和Web智能信息处理系统Ghunt。李德仁院士等[6]编著的《空间数据挖掘理论与应用》提出“数据场—云”聚类、基于数据场的模糊综合聚类和基于数学形态学的聚类等挖掘方法与算法。此外,焦李成等[7]编著了《智能数据挖掘与知识发现》,薛惠锋等[8]编著了《智能数据挖掘技术》。这些论著均重点研究了神经网络、粗糙集合、模糊处理等智能信息处理方法与数据挖掘技术的结合、应用及发展。
数据挖掘与智能信息处理的结合及广泛应用,促进了智能数据挖掘技术的发展,但也存在着巨大障碍:一是目前数据源的大规模化、复杂化、动态化加剧,而数据挖掘研究领域对于大规模智能信息处理技术的研究与应用重视不够,将难以有效地实现大规模知识挖掘;二是数据挖掘较少运用专家和用户的知识,致使其智能水平提高缓慢。
以语义Web为代表的泛在知识环境中蕴含了大量专家、用户和信息管理者的静态与动态知识,为数据挖掘提供了丰富的资源基础;以本体、智能语义处理、知识管理为核心的语义知识处理技术具有较强的语义知识描述、知识推理功能,为数据挖掘的发展提供了技术平台。因此,融合数据挖掘、人工智能、语义处理、知识管理等关键技术,重视获取和利用专家与用户的知识,将目前信息层面的挖掘提升到知识层面的挖掘,是数据挖掘智能演化发展的必然趋势。
2.2 泛在知识环境下的语义挖掘理论及实践
传统的数据挖掘研究主要侧重于运用各种算法从局部的数据里发现模式,主要局限在命题逻辑(即属性-值表示)的框架内,是一种语法层次上的挖掘。在命题逻辑中,数据的描述和发现知识的描述都采用了属性-值的形式。这一描述方式不便于描述复杂的对象,也不能刻画属性-值之间的本质关系。因此,在涉及复杂对象间关系的挖掘任务中,属性-值表示在知识的描述方面存在着巨大障碍,如现有的命题数据挖掘技术缺乏对背景知识的支持,不便利用有关挖掘任务的领域知识等。更重要的原因是,受自然语言理解技术及应用的限制,数据挖掘技术缺乏语义处理能力,致使它处于以信息处理技术为核心的浅层知识获取阶段,仅实现了语法层次的挖掘。因此需要研究更有效的数据挖掘方法,从语义层面上实施深层次的知识挖掘。
在以语义Web为代表的泛在知识环境下,语义挖掘研究将本体、自然语言处理等语义处理技术与数据挖掘技术相结合,从深层的语义层面上研究更有效的挖掘方法和技术。
本体方法是目前知识工程领域的研究热点。它由人工智能的语义网络演化而来,综合利用静态和动态描述逻辑,能够充分描述各类复杂对象的语义内容和对象之间的语义关系及其操作,可以实现对复杂的、高度抽象的、静态/动态知识(如专家知识)的精确表达与处理,为实现信息资源和知识资源的知识挖掘打下基础,已吸引了不少专家学者的关注。
2005年,欧洲Web挖掘联合论坛(the Joint European Web Mining Forum)和知识发现与本体国际研讨会(the International Workshop on Knowledge Discovery and Ontologies)合作举办国际会议,并出版会议集《语义学,网络和挖掘》[9],主要讨论了语义推理、语义Web检索、Web数据挖掘等技术和工具。同年,欧盟委员会资助的“卓越网络”项目(Network of Excellence)设立了由隶属于欧盟的26个组织机构共同承担的项目——“生物医学领域的语义互操作和数据挖掘”(Semantic Interoperability and Data Mining in Biomedicine),该项目的长期目标是开发基于数据挖掘、知识表示、语义检索、知识系统的方法和工具,面向高位信息空间,为医学领域提供决策支持。清华大学计算机科学系软件所知识工程研究室以语义Web和智能Web服务为研究内容,开发了基于语义Web的本体数据挖掘实验平台。
语义挖掘研究过程中构建了各种语义知识库,如具有代表性的语义辞典有WordNet和知网(HowNet)。目前有很多基于WordNet和知网的语义挖掘方法,其基本思路是应用语义概念取代词语来表示内容特征,使用本体来进行概念抽取和语义处理。当前,基于本体的挖掘方法有:①基于概念的文本挖掘,如Sarnovsky,M.等[10]构建了描述网格数据的语义本体模型,在此基础上探讨了文本挖掘流程构建方法;陈骏[11]应用本体和语义网技术构建一个Web文本自动分类器,实现基于语义网的文本信息自动分类;②基于概念之间关系的挖掘,如郑旭玲等[12]针对自然语言处理系统在短语分析时的词汇排歧和结构排歧问题,研究了基于关联分析挖掘的汉语语义搭配规则获取方法;③基于概念语义分析的挖掘,如Jason,J.Jung等[13]探讨了利用语义分析技术从Web日志数据中发现语义架构,并以实验证明基于语义分析技术自动提取的语义架构在用于后期的日志数据挖掘后比未使用前效果有明显提升。
这些研究表明,语义挖掘的概念一经提出,就引起学术界的广泛重视,并且在短短几年中取得较大的发展。本体和语义分析处理技术与数据挖掘技术的融合,提高了挖掘的理论与技术水平,逐步从语法层面深入到语义层面的知识挖掘。
3 数据挖掘在信息资源管理中的应用
数据挖掘理论与技术源自信息资源管理领域对海量信息的处理和分析的实践,20世纪50年代末,IBM公司的H.P.Luhn[14]就对文献信息的自动标引、自动摘要进行了研究和实践,1960年Maron[15]发表了第一篇有关文献信息自动分类的文章,成为文本数据挖掘的最早雏形。后来,随着人工智能、机器学习、数据库技术的研究、融合及应用,产生了对大型数据库的数据挖掘理论与技术。20世纪90年代初知识经济的兴起,有关知识的获取、转换、分析、分类、组织、检索及应用的知识管理理论及技术的研究受到广泛关注,知识挖掘技术成为知识管理的支撑技术之一。同时,知识管理技术的发展促进了知识挖掘理论及技术的研究与创新。在知识获取、知识组织、知识检索、知识分析等领域出现了知识挖掘技术与知识管理技术的融合及应用,如自动特征识别、知识元发现、自动分类、知识检索等。目前,数据挖掘对信息资源管理中的各个环节都产生了重要的影响,并广泛应用于信息资源管理的各个领域。
3.1 数据挖掘在信息资源采集中的应用
3.1.1 数据挖掘对信息资源采集的影响
在传统情况下,信息资源的采集一般通过人工来完成,利用采集者个人知识从大量文献中找出符合特定需求的信息。随着Internet的发展,Web资源采集成为新的信息资源采集途径。目前,常用的信息资源采集方法主要通过搜索引擎来完成。我们可以按照采集策略的不同,把网络资源采集方法归为以下几类[16]:①基于全采集策略的方法,即利用机器人、爬虫等网络搜索工具对所有相关的网络信息资源进行抓取,典型代表有瑞典的Kultura 3项目、芬兰的EVA计划、欧洲的NEDUB项目以及奥地利的AOLA项目等;②基于选择性采集策略的方法,即根据网络信息资源的历史价值、文化价值、研究价值和经济价值的不同,在价值评估的基础上有选择地对Web资源进行采集,典型代表有澳大利亚国家图书馆的PANDORA(Preserving and Accessing Networked Document Resources of Australia)项目,美国的Minerva项目和英国的Britain on the web项目等;③基于联合采集策略的方法,即根据不同的条件,综合运用选择性采集策略与全采集策略,以达到资源采集的最优化的方法,这种采集以法国国家图书馆的BNF项目为代表;④基于呈缴本制度的网络资源采集,即将传统的出版领域的呈缴本制度扩展到了数字资源领域,通过立法将网上电子出版物纳入呈缴范围的采集方法,但该方法更可以看做是一种采集制度保障。
随着信息资源采集要求的不断提高,产业界迫切需要新的采集方法和工具。数据挖掘的出现对信息资源采集产生了巨大的影响,扩大了可采集的信息源范围,提高了采集效率,拓宽了智能采集的应用领域。从采集对象范围来看,对象范围不仅包括普通的网页信息和数据库信息,还包括用户使用信息和多媒体信息;从采集技术来看,数据挖掘增强了现有采集工具的智能性,产生了智能WebSpider、WebWorm、主题采集等技术及工具;从采集应用领域来看,基于数据挖掘的智能采集可以广泛应用于企业竞争情报收集、网络舆情监测等社会经济领域并为决策提供支持。
3.1.2 数据挖掘在竞争情报智能采集中的应用
对信息和数据的收集是竞争情报工作中的基础性工作,无论决策需求或竞争情报课题是否明确下达,竞争情报人员对数据和信息的搜集工作都应该具有持续性和连贯性,从而保证竞争情报工作的良性循环。传统情况下,由于竞争情报研究的信息素材需要竞争情报人员主动采集,所以调查方法在竞争情报中必不可少;而从文献计量学中发展起来的聚类分析方法,不仅为信息搜集提供了别样有效的查询途径,更在数据挖掘等现代信息处理技术中起到核心算法支撑作用,因此,传统的主要竞争情报搜集方法非调查与聚类莫属[17]。随着社会信息化进程和资源数字化的不断发展,网络信息资源已成为企业和政府部门的主要竞争情报来源,而利用Web采集与数据挖掘技术相结合的方法对竞争情报实现智能采集,则是实现竞争情报工作的关键。
(1)智能采集方法与工具
智能采集是在传统Web采集技术基础上,融合现代人工智能、数据挖掘、机器学习等方法和技术,对信息资源实现自动、持续、智能地采集的技术。目前,常用的Web信息采集方法主要有:基于整个Web的信息采集(Scalable Web Crawling),增量式Web信息采集(Incremental Web Crawling),基于主题的Web信息采集(Focused Web Crawling),基于用户个性化的Web信息采集(Customized Web Crawling),基于Agent的信息采集(Agent Based Web Crawling),迁移的信息采集(Relocatable Web Crawling),基于元搜索的信息采集(Metasearch Web Crawling)等[18]。其中,基于主题的信息采集方法和基于Agent的信息采集方法由于能较好地与人工智能、数据挖掘技术相结合,成为目前主流的智能信息采集方法。基于本体的信息采集方法作为主题信息采集的一个特例,也随着语义Web的发展成为当前智能信息采集的热门技术。
①基于主题的信息采集方法:该方法主要根据一定的策略只采集同主题相关的内容,那些与主题无关的页面在经过分析之后将被省去,所以极大地节省了硬件和网络资源。目前在主题信息采集方面的研究,主要思想是对于已经采集的页面进行主题相关度判定,在收集的过程中通过已经收集内容的主题特征性,预测待收集URL与主题的相关性,并据此决定收集的方向。主要代表系统有Charkrabarti等的Focused crawling系统、Aggarwal等的Intelligent Crawling系统和马亮等设计的IRobot智能Web中文主题信息采集系统等。其中,IRobot系统将主题信息采集引入到中文信息处理中,并在领域重要资源的获取上做了一定的尝试。
②基于Agent的信息采集方法:通过一个具有人类社会智能的计算机系统(Agent)来模拟人类思维采集Web信息,并像人一样感知用户的兴趣变化,自主灵活智能的调整采集策略。这种方法常用于基于主题和用户个性化的信息采集中,典型系统有美国爱荷华大学ARACHNID研究项目成果InfoSpiders[19],它能模拟一个生态系统的发展和演化来设计Web信息采集器,其基本采集原理是:以一个用户的书签作为采集起点,通过分析这些起点周围的小区域和链接关系来发现新的要采集的页面。它通过对采集到的页面是否真的跟采集前的相关性预期相符,来增加和减少能量,当能量很高时,还可以生出新的子树,而当能量过低时,它就死亡。类似的系统还有美国麻省理工学院设计的Amalthaca系统[20]和Letizia系统[21]等。随着Agent技术的成熟,目前已经出现了基于多Agent的信息采集工具。
(2)竞争情报的智能采集
为了满足决策层的情报需求,大多数企业利用相关的竞争情报采集工具展开了系统化的情报采集工作。其中,所采用的采集技术与方法可以归纳为如下几类:基于关键词的在线信息检索;基于主题的信息定制检索;采用不同程度的智能化手段辅助情报采集,基本上实现了信息的自动采集,大部分还实现了自动去重,少数企业还实现了基于自动标引和自动摘要的情报采集。智能检索和自动分类是目前企业情报采集中最受关注的一类智能化采集方式;还有一部分企业采用定性和定量相结合的途径,设计了若干竞争情报分析模型,用于从数据库中析取情报。少数企业目前已开始或计划采用数据库挖掘技术,从企业内部结构化数据源中通过联机分析处理和数据挖掘技术进行深层情报的提取。
基于数据挖掘技术开展竞争情报智能采集是国内外的普遍发展趋势。吴晓伟等[22]从事竞争情报研究工作的学者曾指出:为了实现竞争情报系统的高层次发展,融合数据挖掘、神经网络等技术,是提高竞争情报系统质量的关键因素之一。包昌火教授也认为基于智能分析和知识提炼过程的竞争情报采集在一定程度上能够解决竞争情报发展走向中预分析需求增长的问题[23]。同时,国内外少数专门为企业提供竞争情报服务的顶级机构也开始将目光投向了数据挖掘领域,通过引入数据挖掘技术开发高端的竞争情报系统,如ClearForest公司开发的ClearResearch Suite产品通过采用数据挖掘等方法可以从大量的非结构化的文本中动态地提取并分析不同的人物、公司、事件间所存在的关系,使竞争情报分析人员发现他们原本可能忽略的情报[24]。Megaputer公司开发的TextAnalyst系统[25]能自动生成竞争对手相关信息的文摘。英国Autonomy公司推出的基于“语义词的数据挖掘技术”的竞争情报系统,能逐步实现从“搜索”到“发现”的转变。
(3)基于Multi-Agent的竞争情报智能采集技术
该技术在数据挖掘、知识库及多Agent协同工作机制的支持下,改变普通搜索引擎机械收集数据的方式,实现自主聚焦、定向采集、智能处理。文献[26]提出了一种由信息采集Agent、协作Agent、数据预处理Agent、智能分析Agent、接口Agent和管理Agent协同作用的竞争情报智能采集模型,能较好地实现竞争情报采集的集成化、自动化、智能化。
3.1.3 数据挖掘在网络舆情采集中的应用
网络舆情是社会舆情的一种表现形式,是公众在互联网上公开表达的对某种社会现象或社会问题的具有一定影响力和倾向性的共同意见[27]。随着信息传播技术的发展和普及,网络作为信息交流和知识共享的最好平台,成为反映社会舆情的主要载体之一。由于网络媒体信息的海量性、传播的实时性、及时的交互性,以及发言者的匿名性,网络舆情具有很强的分散性、冲突性和难控制性,其获取难度远远超过了一般网络信息。目前,我国相关工作部门采集网络舆情所用的方法和手段还难以满足更高的质量标准和要求,他们往往就某一主题采用人工与搜索引擎或者网络调查相结合的方法,不仅效率低,而且覆盖面窄,所采集的观点是否有代表性也值得商榷[28][29]。
有鉴于此,自20世纪90年代初,各国政府和研究机构均围绕网络舆情的采集和分析开展了大量的工作,并广泛将研究成果应用于舆情情报挖掘和监控、网络反恐、民众意愿分析等领域。在国外网络舆情技术领域,文本分析和挖掘是最主要的技术方法:①文本数据自动分析。通过内容分析法,对舆情载体文本进行扫描分析,借助计算机自动化处理手段和人工智能技术采集和分析特定网站上的舆情内容,如美国专利局一项编号为4930077的专利(2005),提出了一种通过文本分析来预测舆情的方法:通过搜集网上报道等文本信息,对其进行分析汇总后形成舆情分析结果。②针对网络文档进行分析自动摘要。目前该技术已从传统的静态文档分析和自动摘要转为动态文档的分析和自动摘要,其中动态内容的时序划分是研究热点。Mani[30]等人使用时域分析方法对新闻事件的内容进行分析,James Allen[31]等人借用图形学领域的时间线的构建来进行内容划分,并在TDT研究的基础上,探讨了基于内容有用性(useful)与新颖性(novel)的时域文摘研究方法,其提出的时序文摘不同于本文的动态文摘,本质上是一种基于句子排列策略改进的静态文摘。DUC2007国际评测的先导任务UpdateTask实际上就是一个动态文摘问题,这一任务主要来源于信息检索系统、问答系统和文摘系统中对用户行为的模拟。该任务假定用户对某个场景已出现的内容有了足够的了解,在后续文摘中重点关注那些新出现的内容。因此,当得到与此场景相关的新信息时,需要分析新信息与旧信息的关系并生成更新文摘。加州大学伯克利分校社会科学计算实验室(2002)开展的SDA项目,通过自动搜集和分析网络上的Web数据,形成舆情分析报告,该项目获得了美国舆情研究协会的奖励;该项目的实验成果NESSTAR[32]是一个广泛使用的Web数据发布和分析系统,已经推出3.5版本,该系统提供实时Web数据分析功能。③舆情感情色彩分析。主要研究借助计算机手段挖掘网络文本内容蕴含的各种观点、喜好、态度、情感等非内容或非事实信息,国内外目前所做的工作主要在以下方面:客观性分类;词的极性判别;语气分类,如英国科波拉软件公司(2005)推出了一套舆情感情色彩分析软件,它主要是通过网络舆情过滤和分级技术实现的:该技术可自动分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾语,因此可以去除一些与文章主要内容无关的词语,从而判断文章的感情色彩。舆情感情色彩分析软件能够1秒钟阅读10篇新闻材料,并判断出该报道所持的基调是正面、负面还是中立的,以帮助政府和一些大公司了解民意。④网络信息采集与提取。主要研究如何建立针对各类网站的全自动化信息抽取工具,并将这些信息按照一定的格式进行整合,支持各类计算机应用:传统的网络数据抽取方法是针对抽取对象手工编写一段专门的抽取程序,这个程序称为wrapper。近年来,越来越多的网络数据抽取工具被开发出来,替代了传统的手工编写wrapper的方法。目前较为流行的网络数据抽取工具主要有以下几种[33]:开发wrapper的专用语言,如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等;以HTML为中间件的工具,如XWRAP,RoadRunner,MDR等;基于NLP的工具;基于模型的工具和基于本体的工具等。
国内学术界主要关注如何将内容分析法与文本挖掘技术引入到实践需求。刘毅[34]阐述了内容分析法在网络舆情发现中的应用主要为描述网络中传播的舆情信息、推论网络舆情信息传播主体的意图以及态度和情绪的倾向性、描述和推论网络舆情信息的产生和变化趋势。中山大学黄晓斌等[35]研究了文本数据挖掘法在网络舆情中的应用,并在对网络舆情进行描述,对网络舆情的关联性进行分析,对网络舆情信息的真实性进行判断分析,对传播主体的意图及态度倾向进行推论,对网络舆情的产生原因进行分析、预测和推论网络舆情信息的产生和变化趋势等方面给出了具体应用实践。在网络舆情系统构建方面,华东师范大学许鑫[36]研究了互联网信息采集、互联网信息预处理、舆情关键信息抽取、网络舆情内容分析等若干技术问题、并构建了包括舆情计划、舆情采集、舆情加工、舆情发布等主要模块的互联网舆情研判平台。在实践方面,乐思、谷尼等公司均推出了相对成熟的基于数据挖掘的舆情采集和监控软件,其中,乐思软件[37]为全球领先的网络内容挖掘与整合技术提供商,针对国内客户提供企业级网络信息采集产品,乐思网络信息采集系统涵盖乐思新闻采集系统、乐思文本采集系统、乐思论坛采集系统、乐思RSS采集系统、乐思网络信息实时采集开发包等产品模块,其主要功能为:能根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。
在应用领域,美国国防高级研究计划局DARPA(2002)提出的TIA(Total/Terrorism Information Awareness)计划[38]旨在利用计算机技术分析和处理网络海量数据的社会舆情。借助于新颖的人工智能算法和复杂系统、社会网络等理论,收集尽可能多的网络信息,建立一个庞大的数据库,然后对其进行数据挖掘,从链接关系和网络结构中发现可疑的恐怖活动情报线索;麻省理工学院的桑迪·潘特兰德开展的Reality Mining Project项目[39]致力于利用现实挖掘技术从社会复杂系统中推导出人的倾向性行为,从而实现对舆情的挖掘。美国亚利桑那大学Edna Reid、Marc Sageman等[40]开展的Dark Web Portal Project通过提取恐怖主义网站的900 000个Web页面,采用内容处理等技术手段,分析并预测潜在的恐怖主义袭击危险应用于网络反恐中。
3.2 数据挖掘在信息资源分析中的应用
3.2.1 数据挖掘对信息资源分析的影响
目前,在国民经济和社会发展中,无论是宏观、微观决策活动,还是研究与开发、市场拓展等活动,都离不开相关信息资源的分析。在竞争日益激烈的现代社会里,信息资源分析是增强企业市场竞争力乃至国家经济竞争力的重要手段。
从数据挖掘的功能来看,数据挖掘充分利用各种分析工具在海量数据中发现模型和数据间的关系,并使用这些模型和关系进行预测,帮助决策者寻找数据间的潜在关联,发现被忽略的因素。从功能来看,数据挖掘与信息资源分析具有很强的相似性:二者数据源相似,信息资源分析的“信息”与数据挖掘的数据含义相同;分析过程相似,信息资源分析的步骤与数据挖掘的步骤基本相同,都经历了原始数据提取、数据筛选、数据分析、数据评价这几个关键步骤;目标相似,数据挖掘的目标是知识发现,通过对原始数据的分析提炼,找到其内在变量的联系,从而获得知识。信息资源分析的主要目的是根据特定问题的需要,对大量相关信息进行深层次的思维加工和分析研究,能够根据周围环境的变化,找出其内在规律,形成有助于问题解决的新信息、情报、知识的劳动过程。
同当前传统的信息分析方法相比较,数据挖掘上升到对大规模、海量信息资源的深层次、多维分析,而且拓展了挖掘对象,由结构化的数据信息延伸至半结构化和非结构化的文本文档。目前采用基于数据挖掘技术工具化软件对多种资源进行自动采集、自动分类和去重等处理,从海量信息中及时准确地筛选关键情报资讯信息,通过系统自动化与人工干预相结合的方式,经过可定义的处理流程,作为了解各类信息的重要渠道和决策辅助支持的工具,从而提高快速反应能力,无论从体系结构上还是从具体方法上,数据挖掘算法都能够很好地融合和应用到信息资源分析中去。
数据挖掘可以用来实现对信息资源的概念类/类描述、关联分析、分类、聚类、时序演变分析等分析功能。在传统的信息分析的方法技术的基础上,数据挖掘进一步丰富和发展了信息资源分析的相关方法和技术,信息资源分析的效率和效益得到很大程度的提高。
3.2.2 关联分析及应用
(1)关联分析研究概述
关联分析(Association Analysis)就是从大量的数据中发现项集之间存在的有趣的关联、相关关系或因果结构以及项集的频繁模式的一种信息分析方法。数据挖掘中的关联分析过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets);第二阶段再从这些高频项目组中产生关联规则(Association Rules)。基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。基于规则中涉及的数据的维数,关联规则可以分为单维的和多维的。
近年来,已经提出了许多有效的关联规则挖掘算法,如基于Apriori的频集方法,FP-growth(频繁模式增长)方法等。Agrawal等[41]于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。1994年,Agrawal等[42]提出了Apriori算法,其基本思路是重复扫描数据库。Apriori算法是一种经典频集方法。
以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,或提出各种变体,以提高算法挖掘规则的效率和对关联规则的应用进行推广等。主要有以下典型方法:
①基于划分的方法。Savasere等[43]设计了一个基于划分(Partition)的算法,这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。
②基于Hash的方法。一个高效地产生频集的基于杂凑(Hash)的算法由Park等[44]提出来。通过实验我们可以发现寻找频集主要的计算是在生成频繁2-项集Lk上,Park等就是利用了这个性质引入杂凑技术来改进产生频繁2-项集的方法。
③基于采样的方法。基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法,Mannila[45]等先考虑了这一点,他们认为采样是发现规则的一个有效途径。随后又由Toivonen[46]进一步发展了这个思想,先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。Lin和Dunham[47]讨论了反扭曲(Antiskew)算法来挖掘关联规则,在那里他们引入的技术使得扫描数据库的次数少于2次,算法使用了一个采样处理来收集有关数据的次数来减少扫描遍数。
④减少用于未来扫描的事务集的大小的方法。其原理就是当一个事务不包含长度为k的大项集,则必然不包含长度为k+1的大项集。从而我们就可以将这些事务移去,这样在下一遍的扫描中就可以要进行扫描的事务集的个数。这个也是AprioriTid的基本思想。
后来,Edith Cohen[48]针对Apriori算法无法对稀疏信息进行分析的缺陷,提出把可信度放在第一位,挖掘一些具有非常高可信度的规则。整个算法基本上分成三个步骤:计算特征、生成候选集、过滤候选集。在三个步骤中,关键的地方就是在计算特征时Hash方法的使用。实验数据也说明这种方法的确能产生一些有用的规则。J.Han等[49]针对Apriori算法在具体实现中可能产生大量的候选频繁项集这一缺陷,提出了一种FP-growth的方法。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
以上四类涉及的是结构化数据的关联分析。对于非结构化和半结构化的文本数据信息,可以进行基于关键字或词、概念及概念属性的关联分析。其主要过程是:对文本数据库中的文档数据进行处理,得到每个文档的特征关键字或词、概念及概念属性的集合。然后把每一文档的唯一标示及其关键字或词、概念及概念属性集合当做一个数据对象,对这个数据对象集合应用结构化数据关联挖掘算法,就可以发现经常连续出现或紧密相关的关键字或词、概念及概念属性。通过文本关联分析,可以找出关键字或词、概念及概念属性间的关联,进而获取文本关联规则。
(2)关联分析的主要应用
关联规则挖掘始源于商业上对市场购物篮进行分析的问题,用来发现交易数据库中不同商品之间的联系,这些规则反映顾客购买的行为模式,在购物篮分析、目录设计、商品广告邮购分析、追加销售、商品货架设计、仓储规则、客户细分等都可以应用这些关联知识。在金融领域,关联规则挖掘的潜在应用前景也是相当广泛的,如银行客户对所提供金融服务与产品间的关联性、不同金融产品价格之间的关联性、不同市场变动趋势之间的关联性等。如下是几个典型的应用领域:
①市场菜篮分析。理解用户的购买习惯和喜好对于零售商做出相应的销售决策是十分重要的,这些决策包括销售哪些商品、如何设计商品的样式、如何设计目录及怎样陈列商品以达到促销的目的等,关联规则挖掘可以向用户提供上述信息。一个零售环境中的典型应用便是市场菜篮分析或称购物篮分析(Shipping Basket Analysis)。由于条码技术的广泛应用,客户的购买信息可以完全自动化地以电子数据的形式记录在客户的数据库中,通过分析数据项目间的关系(这里的项目指的是顾客所购买的商品),可以利用所发现的关联规则指导商家的销售行为或广告行为等。例如后项中包括“TV”的规则将帮助用户决定怎样做才能促进电视机的销售;另外的一个例子是,B商品经常和A商品一起被用户所购买,即存在规则A?B,由于B的价格远远小于A,因此为了促销A,可以将B作为与A一起销售的免费商品,进行捆绑销售。
②交叉销售。在目前激烈的商业竞争中,留住现有的顾客,充分利用这些现有的顾客资源甚至比引起更多的新顾客更为重要。许多公司提供了不止一项的服务或产品,公司可以通过对现有的客户数据进行分析而达到促销的目的,如:向这些客户推销他们目前尚没有购买的商品(或服务)被认为是一种快速获取收益的好方法。交叉销售就是用于描述这类问题的一个专有词汇,它是指向公司的现有客户销售这些顾客尚未购买的商品(或服务)的销售行为。由于在大型的公司或组织里,其客户的数据库往往是非常庞大的,人工浏览这些数据库并加以分析显得十分困难,因此自动化的关联规则挖掘技术便成为获取有用信息的强大工具。
③部分分类。现实世界中的许多问题需要对数据进行部分分类,即发现用于描述部分数据的类型的模型,而不是发现覆盖所有类型或任意给定类型的所有实例的模型。普通的分类方法在数据集中存在大量的属性或绝大多数的属性数值丢失的情况下是无能为力的,因为在这种情况下很难找到一个全局的模型,但是该类问题却可以利用关联分析得到很好的解决。这样的一个例子是,对病人进行身体检查信息所构成的数据集中含有数以百计的检查项目,但是针对任何一个单独的病人所进行的检查项目却是有限的,医生可以利用关联分析所获得的规则判断是否有些项目的检查结果可以通过组合其他项目的检查结果而得以预测,或者是一个复杂的检查可以由一些简单的检查所替代。
④金融服务。目前关联规则挖掘在金融服务行业中的应用也正在不断加以推广和深入。安全分析人员利用它分析大量的金融数据,进而找到与开发投资策略有关的交易与风险模型;信用卡公司可以通过对客户数据的挖掘,找出信用模型;股票公司利用关联规则挖掘分析股票价格走势。国外的一些金融企业已经开始运用这些技术指导管理和决策。
⑤通信、互联网、电子商务。关联规则挖掘除了在上述领域中的应用之外,还对通信、互联网及电子商务领域的发展具有重要的作用。如在通信领域中用于诊断入侵模式,通过采集路由器中存留的有关信息,判断黑客对系统的攻击行为和习惯,以提高通信的安全性;利用关联规则挖掘技术对互联网上丰富数据资源进行挖掘是目前该领域中的一个热点问题,如利用Web内容挖掘的结果提高搜索引擎的性能;Web结构挖掘的结果可以帮助网站的经营者重新设计网站的结构;Web使用挖掘则可以理解用户的浏览模式及需求等。
除了上述提到的一些典型应用外,关联规则挖掘还有很多的应用。总之,只要涉及大型的数据集中获取知识的问题,关联规则都可能成为有力的工具。
3.2.3 分类分析及应用
作为一个古老的话题,分类在信息资源分析中得到了广泛的研究。随着数据挖掘分类算法的不断完善,信息资源分类方法也得到更进一步的发展,分类方法向着更加高级、更加综合化和更加多样化的方向发展。
分类技术主要是在已有数据的基础上,根据各个对象中找出的共同特性,构造或通过学习生成一个分类函数或一个分类模型(常称为分类器),通过分类器将数据库中的数据映射到给定类别中的某一个,从而完成对全部数据的分类。利用分类分析方法可以从海量的数据库中得到有用的信息,例如根据信用卡用户的债务、收入和工作情况对他们的信用程度进行分类,为授信额度的确定以及其他风险管理措施提供依据。
分类分析一般分为两步:第一步是分析训练集中的数据,构造一个分类分析模型。通常该模型通过分类规则、决策树或数学公式的方式提供;第二步,使用分类分析模型进行分类,在对模型的预测准确率进行评估的基础上对新的类别标号未知的数据记录或对象进行分类。目前常用的分类分析方法主要包括决策树方法(经典的决策树算法主要包括:ID3算法、C4.5算法和CART算法等)、神经网络方法(BP算法)、遗传算法(GABIL系统)、贝叶斯分类、K-近邻算法和基于案例的推理。粗糙集方法、模糊集方法和支持向量机是较新的分类方法。
随着数据挖掘领域相关算法的不断完善和发展,新的分类方法相继在信息资源分析中得到应用,这些分类方法和算法突破了传统的词表分类,提高了分类的适应化能力和自动化程度。
①基于粒度计算的分类方法。关于用粒度计算来解决分类问题,Yao J.T.和Yao Y.Y.进行了一系列的研究。如从粒度计算的角度对两个经典的分类算法ID3和PRISM进行了研究,将它们扩展为基于粒度计算的分类算法[50];比较系统和形式化地研究了以粒度为中心进行分类规则发现的策略[51][52]。Zhao Yan[53]通过修改现有的PRISM算法来粗化分类规则,使得到的分类规则更容易理解,同时获得了较高的预测精度。
②基于关联规则挖掘的分类方法。近年来,对于如何将关联规则挖掘用于分类问题,学者们进行了广泛的研究,取得了一系列研究成果。纵观这一领域的研究工作,我们大致将其分为两大类:一类是关联分类(Associative Classification),另一类是基于EP(Emerging Patterns)或JEP(Jumping Emerging Patterns)的分类。属于关联分类的算法主要包括CBA、ADT、CMAR等,基于EP的分类算法有CA-EP和DeEP,基于JEP的算法有JEP-Classifier等。
③基于LM(Lattice Machine)模型的分类方法。粗略地讲,LatticeMachine(LM)模型[54]是对数据集的近似,Wang Hui等对LM模型在分类问题中的应用进行了一系列研究。与很多传统的分类方法(比如决策树归纳)不同,LM模型旨在近似数据,而决策树归纳则旨在划分数据。
④K-近邻算法(K-NN)方法。K-NN是一种有效的分类方法,在此基础上,Guo Gongde和Wang Hui等[55]提出了一种新颖的KNN类型的分类方法,称为基于KNN模型的分类方法,还将这种基于KNN模型的方法成功用于文本分类[56]。另外,Ye Nong和LiXiangyang将聚类方法和经典的K-NN方法结合起来,提出了一种新颖的分类方法,称为CCA-S[57]。
⑤支持向量机(SVM)方法。SVM是进行分类、聚类和时间序列分析的有效数据挖掘工具。而实际的数据挖掘应用往往包含了数以百万计的数据,这使得SVM很难发挥作用。针对这个问题,Schohn等[58]用选择性采样或者主动学习方法来训练SVM。Yu等[59]将层次聚类用于SVM,以加快SVM对大规模数据的处理速度。Fung G.和Mangasarian O.L.[60]提出了增量式SVM,新提出的方法用于二分类问题。
⑥多分类器融合(Fusion)的方法。实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此,学者们对多种分类方法的融合进行了广泛的研究,取得了一系列研究成果。纵观文献中的研究,可以大致将多分类器的融合技术分为以下几类:投票机制(Voting)、行为知识空间方法(Behavior-KnowledgeSpace,BKS)、证据理论(Dempster-Shafer Theory)、贝叶斯方法和遗传编程(Genetic Programming,GP)。
分类分析最常用的应用领域是金融领域,尤其在信用卡管理方面,分类分析具有得天独厚的优势。在信用卡核准过程中,信用卡公司根据信誉程度,将一组持卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。然后根据信誉特征给每个信誉等级建立分类分析模型,最后根据该模型对新的记录进行分类,从而判断一个新的持卡人的信誉等级是什么。在信用卡审批方面,分类分析常用来对申请人进行识别和判断。如花蓓[61]利用决策树方法建立了信用卡审批模型,并将其与神经网络模型进行了比较;在防止信用卡欺诈方面,徐远纯等[62]利用粗集理论中的特征属性约简方法来分析和研究欺诈风险,提出了一种基于粗集的欺诈风险分析方法,并通过一个信用卡欺诈的分析实例对该算法进行了检验。实验结果表明,在保证分类质量基本不变的情况下,该算法能找出引发欺诈行为的主要特征属性,帮助管理者及时、准确地预测各种可能发生的欺诈风险。
3.2.4 聚类分析及应用
作为统计分析技术的重要领域,聚类(Clustering)方法(又称聚类分析)是将物理的或者抽象的对象分组为多个类或簇(Cluster)的技术,也是多元数据分析的三大方法之一(其他两种是回归分析和判别分析)。作为统计分析的分支,传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类法、有重叠聚类法和模糊聚类法等。这些聚类方法都是一种基于全局比较的聚类,它需要考察所有的对象才能确定类或簇的划分,因此它要求所有的对象必须预先给定,而不能动态增加新的对象。现有聚类方法的研究主要集中在基于几何距离的聚类方法上,例如欧式距离、明考斯基距离等,这些方法已经在许多统计软件包中得到应用,包括SPSS和SAS统计软件包中均有聚类方法。
聚类分析作为一种重要的人类行为,广泛地应用在模式识别、数据分析、图像处理、市场研究等各个方面。通过聚类分析能够识别密集的和稀疏的区域,从而发现全局的分布模式,以及对象之间有趣的相互关系。作为KDD环节数据整理阶段和数据挖掘阶段重要的应用技术,聚类分析能够作为一种独立的方法来获得对象分布的情况,归纳每一个簇的特点,集中对某些特定的簇做进一步的分析。同时,聚类分析通常也作为其他方法(例如特征提取、分类等)的初始步骤,以便这些方法在聚类生成的簇上进行再处理。
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。按照这些聚类分析算法的主要思路,它可以归纳为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。目前,有很多相关的聚类算法,如Guha等人在1998年提出了CURE算法[63],ROCK算法[64],Karypis的CHAME-LEON算法[65],Wang W等的STING[66],STING+[67],Agrawal等的CLIQUE[68]等。基于层次、密度、网格等聚类方法弥补了过去情报处理中信息分类的不足,为信息组织提供了更科学的方法,为科技创新提供了有效途径。
聚类分析的应用很广泛,例如,可根据客户的基本信息发现不同的客户群,并且用购买模式来刻画不同客户群的特征。文本聚类将相关主题的文献聚成一类,有助于人们对文献信息的进一步处理。文本聚类的关键在于文献相似度的度量,一般采用文献—标引词相关矩阵的方法来度量。以下是几个重要的应用领域:
(1)信息资源的预处理
根据信息资源分布的层次性、特征性等特点,利用聚类方法对信息资源中存在的大量不完整、含噪声及不一致的内容进行清理,是当前信息资源管理应用领域的一个热点。如文献[69]指出,可以结合数据预处理的过程,利用不同的聚类方法对数据资源进行预处理,如在数据资源的数据对象集合层面,因为不同数据对象集合所具有的资源知识形态是不同的,运用聚类分析方法对数据对象集合进行围绕用户特定题需求的数据对象准备和选取等清理工作,都面临着领域知识复杂、关联因素众多、对象规模巨大等困难。因此,采用分裂型层次化聚类方式进行综合评估,以用户特定主题需求为聚类目标,通过运筹学方法进行迭代,剔除相异度高的数据对象集合,有利于进行数据对象集合的聚类清理。还可以通过统计学和数学方法对数据对象进行归约和集成,用基于密度初步聚类的方法对预处理结果进行聚类优化。目前这方面的研究应用已经渗透到图书情报、高校数据资源与高校学生质量评估、生物信息学等领域。
(2)文本聚类相关应用领域
文本聚类是根据文档的某种联系或相关性对文档集合进行有效的组织、摘要和导航,方便人们从文档集中发现相关的信息。文本聚类方法通常先利用向量空间模型把文档转换成高维空间中的向量,然后对这些向量进行聚类。由于中文文档没有词的边界,所以一般先由分词软件对中文文档进行分词,然后再把文档转换成向量,通过特征抽取后形成样本矩阵,最后再进行聚类,文本聚类的输出一般为文档集合的一个划分,其形式可以是一个层次结构(如AHC算法)或者二维平面图(如SOM神经网络)。
由于文本聚类是一种自动化程度较高的无监督机器学习方法,近年来在信息检索、自动标引、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。如在自然语言处理应用领域,文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,比较典型的例子是哥伦比亚大学开发的多文档文摘系统Newsblaster[70],该系统能将每天的报文文本进行聚类处理,并按主题进行冗余消除、信息融合等智能处理,为用户的浏览提供方便;在信息服务领域,通过对用户感兴趣的文档聚类,能够挖掘用户的兴趣模式以用于信息过滤和主动推荐等信息服务;对搜索引擎返回的结果进行聚类,然后按目录树的形式提供给用户,可以使用户快速找到所需要的信息,比较典型的系统有vivisimo[71]和infonetware[72]等,系统允许用户输入检索关键词,而后对检索到的文档进行聚类处理,并输出各个不同类别的简要描述,从而可以缩小检索的范围,用户只需关注比较有希望的主题。另外这种方法也可以为用户二次检索提供线索,等等。
(3)客户关系管理
在商业领域,聚类分析作为一种重要的数据挖掘方法,广泛应用于客户关系管理中。如根据客户的基本信息发现不同的客户群,并且用购买模式来刻画不同客户群的特征;通过对客户历史交易行为的聚类分析,得到价值、次价值、潜价值和低价值客户的数目和名单,以此为基础,通过进一步挖掘可以得到各类客户人口统计变量和行为特征等;利用客户基本资料和各类交易原始数据进行数据挖掘,建立客户流失模型和客户投资理财评价模型等。
3.3 数据挖掘在信息资源检索中的应用
信息检索就是应用信息技术,在海量信息集合中查找所需要的信息和知识。随着大规模信息检索及搜索技术与人工智能技术、数据挖掘技术结合,能够实现检索知识的高效获取,为知识检索提供“知识基础”和“知识模型”,从而辅助检索系统准确把握用户的检索需求,调整和优化系统自身的知识环境和解决问题的能力,精准检索结果。通过对Web上各种类型的信息源内容和结构的挖掘、对用户和专家使用记录的挖掘,实现知识的关联、聚类、分类,同时建立相应的“信息源知识库”、“用户知识模型”、“专家知识模型”,实时获取各类检索知识,指导检索过程的实现。
3.3.1 数据挖掘在抽取检索标志中的应用
数据挖掘在信息检索中的一个应用就是运用自动标引技术抽取检索标志。自动标引(Automatic Indexing)是指利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。
1957年,美国人H.P.Luhn提出了基于词频统计的抽词标引法,由此开始了自动标引的探索。从20世纪60年代后期到70年代末,自动标引研究取得了很大进展,提出了概率统计标引法和各种加权模型等。1958年,Luhn[73]提出基于绝对频率加权法的自动标引方法;P.B.Baxendale[74]提出从论题句和介词短语中自动提取关键词;1959年,Edmundson与Oswald[75]提出基于相对频率加权法的自动标引方法;1960年,Maron与Kuhns[76]提出基于相关概率的赋词标引方法;1969年,H.P.Edmundson[77]提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题。
80年代以来,研究人员开始从语言学和统计学角度研究标引技术。1970年,LoisL.Earl[78]利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词;1973年,Salton等[79]提出基于词区分值的自动标引方法;1975年,Salton等[80]将VSM模型用于自动标引中;1983年,Dillon等[81]提出一种基于概念的自动标引方法,研制了FASIT系统;1985年,Devadason[82]提出基于深层结构标引方法;1990年,Deerwester与Dumais等[83]提出潜在语义分析标引法;1993年,Silva与Milidiu[84]提出基于相信函数模型的赋词标引方法;1995年,Cohen[85]提出N-Gram分析法的自动标引方法。
近年来,自动标引技术开始向人工智能法和混合法发展。1999年,Frank等[86]提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法;Turney[87]利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究;2001年,Anjewierden与Kabel[88]提出基于本体的自动标引方法;2003年,Hulth[89]利用Bagging算法进行了基于集成学习的关键词抽取;2004年,李素建[90]提出基于最大熵模型的关键词提取方法;2006年,张阔[91]提出基于SVM自动标引模型;2007年,Ercan G.与Cicekli I.[92]提出基于词汇链的自动标引方法。
从上述发展来看,按照标引技术采用的理论依据,自动标引可以分为统计分析方法、语言分析方法、人工智能法和混合方法。统计分析方法的基本原理在于术语具有一些显著的统计特征,如共现、逆文档词频、熵、互信息等。统计分析方法是目前应用最多的标引方法。在这类方法中,可以分为一般统计法、加权统计法和分类判别统计法。语言分析标引法是对被标引的对象从词、句、语义、篇章等层次进行语法分析,从而达到标引的目的。语言分析法可以分为词法分析(Lexical Analysis)、句法分析(Syntactical Analysis)、语义分析(Semantic Analysis)和篇章分析(Text Analysis)。人工智能法实现自动标引的目的是让机器从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作。人工智能法分为机器学习法、集成学习法和专家系统。
上述方法各有缺陷,因此,可以将上述几种方法根据情况混合使用,或加入启发式知识使用。可以先利用统计分析方法获取初步标引结果,再基于语言分析方法利于语法过滤器处理统计分析结果;也可以先用语言分析方法处理文本获取候选标引词,再利用统计模型确定标引词。同时,各种抽词算法也越来越多地采用人工智能的方式,来加强语义理解,提高标引效果。
3.3.2 数据挖掘在Web信息检索中的应用
数据挖掘在Web信息检索中的应用主要体现在以下两个方面:
(1)挖掘Web信息源。主要是对Web信息源进行内容挖掘和结构挖掘
对Web信息源内容的挖掘,主要是使用统计(包括自然语言处理)方法、机器学习、神经网络等方法对Web信息源的信息内容进行分析,从中发现信息源在主题、学科分布、结构和内容上的关联,从中提取知识。对Web信息源结构的挖掘指的是对Web页面的超链接关系、文档结构、文档的URL地址结构的挖掘,以求从Web的组织结构和链接关系中发现知识。
对信息源内容的挖掘,可揭示网络信息的主题特征知识及其之间的相互关联知识,实现知识的合理分类,形成信息源知识模型(包括网络信息对象的分类知识和内容知识);通过对信息源结构的挖掘,可揭示权威网页、权威链接之间的关联,揭示蕴含在这些文档结构信息中的有用模式,有助于从多个维度和层面提供检索途径。
(2)挖掘Web用户访问记录,形成用户知识模型
对用户访问记录的挖掘,其实质是利用数据挖掘技术,从认知心理学的角度对用户对Web环境的认知情况的分析,主要通过挖掘用户的访问记录进行。对用户访问记录的分析主要包括如下几个方面的内容:对用户背景的分析、对用户群体的分类分析、对用户偏好的分析、对用户检索满意度的分析等。用户访问记录挖掘中使用的挖掘方法通常有概率统计分析、路径分析、分类、聚类、关联规则分析等。Web信息用户的类型广泛、背景复杂、信息需求个性化较强,因而对其使用记录的挖掘和分析,目的在于获得有关用户的规律,形成用户知识模型。由于用户知识模型具有保存和管理用户知识、向用户模型添加新知识、支持和回应检索系统的需求的功能,因而,对用户访问信息的挖掘和分析有助于准确理解和把握用户请求,减少因人机思维差异导致对用户检索意图理解产生偏差的情况。如果系统难以理解用户的实时请求,可以调用用户模型,进行辅助判断。
3.3.3 数据挖掘在搜索引擎中的应用
(1)数据挖掘中的分类/聚类方法对搜索引擎提供的支持
分类/聚类是人们认识自然的一种重要手段,也是数据挖掘的一种重要方法。对于搜索引擎来说,分类/聚类技术可以在如下几个方面提供支持:
第一,层次化、条理化检索结果。现今的搜索引擎的检索结果并不尽如人意,往往是用户输入一组关键词,就会得到成千上万的通用检索结果,而某一特定(类)用户感兴趣的只是其中很小一部分,这就需要用户人工筛选出自己需要的信息,因此难以保证特定用户感兴趣的信息能够优先显示。分类/聚类技术可以按性质、相似程度等对检索出的页面进行分类/聚类操作,使得检索结果按类别分为若干组,而且每组都有一个比较明确的主题,特定用户可以迅速地查看每一组,选择那些与其兴趣最相关的组,进而能够快速找到最感兴趣的页面。第二,加速检索过程。自然语言中词形和词义并不是一一对应的,有很多一词多义和多词一义的现象,这种现象使得仅仅依靠关键词的比较不足以获得满意的检索结果。事前对原始文本进行分类/聚类是一种可行的加速方案,就是把那些近似程度较高的文本分在同一个组内,而每个组都形成一个中心。检索时只需和这些类中心比较,这会大大加速整个检索过程。第三,实现个性化服务。比较理想的信息检索模式是系统能够根据用户的个性(由用户的注册信息或访问记录获得)主动为其提供有针对性的信息服务。面对巨大的用户数量,就需要对Web用户进行分类/聚类来有效地实现个性化服务,而且描述出每一类用户的兴趣模型,即Web用户分类/聚类操作是实现个性化服务的基础。
(2)Web挖掘在搜索引擎中的主要应用
由于搜索引擎是从传统的信息检索技术发展而来,对于Web文档的处理不够深入,因此可以利用Web文本挖掘技术来对搜索引擎中的Web文档处理部分进行进一步完善。
①文本的自动分类:目前,搜索引擎中的自动分类技术还很不成熟,搜索引擎分类绝大部分依靠手工操作。Web页是HTML格式的超文本,页面中有<title>、<meta>等标记,以及描述页面的标题、关键词和URL等,这些都包含了重要的含义信息。通过Web挖掘和机器学习技术可以对索引数据库中的信息进行整理,对文档进行自动分类。
②搜索结果的聚类:搜索引擎面临的一个巨大的问题在于网络的动态增长,对一些新出现的信息进行分类就成为一个很复杂的问题。聚类没有预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,将相似的结果集中在一起。研究证明,将与用户查询结果相关的文档进行聚类,相关文档之间的聚类会比较近,而不相关文档的聚类会非常远。如果这个结论成立的话,那么通过对文档聚类则可以使搜索引擎检索结果中的相关文档集中在一起,使用户在进行浏览选择的时候可以只选择最为相关的簇,这样就大大减少了用户进行浏览的数量。
③自动摘要的形成:目前,大部分搜索引擎在向用户返回检索结果时,给出的每个文档简单摘要通常是机械地截取文档的前几句。这就限制了搜索引擎的自动摘要的质量。在Web文本挖掘中的文本抽取技术从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或表示。
④页面等级排序及“权威”页面显示:通过Web结构挖掘方法对网页的超链接关系进行分析,将潜在的语义明确表示出来并进行等级排序,然后按照页面的重要性进行输出,使用户能够优先查看比较“权威”的页面,从而提高搜索引擎的检索质量。
⑤用户兴趣分析和个性化搜索:将Web日志挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求;或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。
3.4 数据挖掘在信息资源服务中的应用
3.4.1 数据挖掘在用户知识发现中的应用
互联网的发展为用户提供了多种新的信息服务,但当前网络信息服务中更多的是单向、被动的服务模式,所提供的信息内容单一。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的个性化知识服务和智能信息服务。目前,以Web挖掘为代表的数据挖掘技术已经广泛应用于图书馆信息服务与数字图书馆、电子商务个性化推荐服务等领域,其技术关键在于从传统的以信息资源为中心的服务转换为以用户为中心的服务,在服务过程注重利用数据挖掘技术分析用户兴趣、使用习惯、行为等个性化用户知识。
用户知识泛指用户的身份、目标、兴趣、经验、背景、行为偏好等一系列特征性知识。一般来说,可以通过特定知识获取方法识别和描述用户的各种特征并借助用户模型来描述。目前,常用的用户知识获取方法有关联分析法、组合分析法、分类填表法、智能代理法等[93][94]。关联分析法是在提取用户信息需求后辨别用户之间是否存在某种关联关系,并找出反映用户行为特征的关联规则。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。组合分析法主要是通过人工神经元网络和决策树相结合的方法从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。分类填表法要求用户主动填写按照既定关键词或者主题词制作的表格,表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。智能代理法则是通过在用户的终端上运行一个监视的信息代理(Information Agent),信息代理将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。
虽然个体信息用户的信息需求具有特定性,但从用户群整体来看,用户的信息需求又是随机的,这为一般的用户需求信息分析带来很大的困难。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解用户的信息需求。通过在线提问、调查表等方式,系统可以获取关于用户的用户名、用户访问IP地址、用户的职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个用户建立一个信息需求模型。而且全方位的用户需求信息挖掘,可以将同类信息需求的用户联系起来,从而实施“以一对众”的检索方案。目前用户知识挖掘已步入实用阶段,如IBM公司推出的DB2 UDB 7.1就是一种比较理想的用户知识挖掘工具[95]。
(1)基于日志用户浏览模式的数据挖掘应用
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式,从而指导电子商务实践和网站建设,是目前Web日志挖掘的主要研究方向。目前常用的挖掘算法有Apriori算法、最大向前序列法、参考长度法和树形拓扑结构法等。Apriori算法先将日志中的用户浏览历史记录转换成一个浏览子序列集;最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。
Web日志挖掘主要应用于以下几个方面[96]:①系统改进:对Web系统的特性数据进行分析,得出结论以供Web系统性能改进。如:可以提供Web流量行为的分析,利用它来进行Web缓存、存取平衡等。另外,随着电子商务以指数形式增长,安全问题成为基于Web服务的重点,Web日志挖掘也可以提供有用的挖掘模式来检测Web站点侵入、欺骗等。Rexford和Aggarwal等主要应用在系统的改进上。②站点修改:对所有用户的浏览路径进行挖掘,发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接,以改善站点结构。在这方面的应用软件有PageGather等。③商业智能:用户如何使用网站来购买货物对于电子商务而言是很重要的。通过对用户行为和购买货物等关系的挖掘,发现其中的用户群购买特征和购买趋势等来进行商业智能、支持商业决策。SurfAid和Tuhzilin等主要应用在这方面。④个性化服务:从单个用户的浏览信息发现用户的兴趣,向每位用户提供符合其兴趣要求的个性化界面,如: SiteHelper、WebWatcher和K rishnapuram等挖掘工具主要应用在个性化挖掘上。
(2)基于用户兴趣发现的数据挖掘应用
目前实现个性化知识服务的主要方式是通过与用户交互或跟踪用户行为发现用户兴趣,并据此利用推理规则对提供给用户的知识进行过滤,然后将过滤的知识以合适的方式呈现给用户,其实现关键在于获取用户兴趣特征并建立用户兴趣模型。目前用户兴趣挖掘主要通过对Web日志分析来实现,也有部分学者提出通过跟踪用户行为来发现用户行为。文献[97]提出了一种基于Ontology的用户兴趣挖掘方法,该方法跟踪用户对知识系统的使用,采用动态机器学习机制获取用户兴趣概念,并通过对用户兴趣概念的深层分析和挖掘,最终建立基于Ontology的用户兴趣模型,模型通过建立参考本体揭示用户兴趣知识的概念结构关系,使隐性用户知识显性化。文献[98]提出一种将用户行为与Web日志相结合的挖掘方法,通过收集包括跟踪用户行为所得到的浏览页面的时间和页面滚动的时间,日志中记录的访问页面的时间和页面访问频率等信息确定用户兴趣。
3.4.2 数据挖掘在个性化推荐服务中的应用
互联网和电子商务的发展使用户对信息服务有了更高的要求,个性化推荐成为广泛应用在图书情报、电子商务领域的重要技术。个性化推荐服务就是利用智能技术从各类数据库中挖掘出隐藏在数据中的有价值的知识,帮助用户实现预期目标的服务,其关键技术就是信息过滤和数据挖掘。
国外从20世纪90年代已经开始了数据挖掘在个性化推荐服务中的应用研究,最初用在图书馆领域,主要是利用其进行馆藏推荐和数字图书馆服务。如美国加州大学伯克利分校信息管理与系统学院迈克尔·库伯教授曾对加州大学数字图书馆目录的使用记录数据进行挖掘分析,发现使用者有几种类型:真正利用目录的用户、只是收集数据为检索服务的网络、“机器人”、只是浏览网页不查找目录的一般访问者。他们所逗留的时间有所不同。库伯还设计了模型,对用户的查询时间、过程采用聚类、时间序列分析等方法分析,发现不同的用户在查询数量、时间结果的次数、显示结果的时间等方面具有不同的特点。通过数据分析,以便了解和掌握数字图书馆用户的特点,预测其未来趋向,从而研究数字图书馆用户的行为规律。文献[99]提出了一种基于数据挖掘技术的馆藏文献资源的个性化推荐服务方式,探讨了如何采用决策树分类法与关联规则相结合的技术在数字图书馆中实现对读者的个性化推荐服务的问题。
在电子商务领域,Web挖掘(主要是Web使用挖掘)已经成为站点个性化推荐的主流方法,已经广泛应用在包括亚马逊、淘宝、当当、易趣等在内的各大电子商务网站中。Web挖掘方法主要包括聚类分析、关联规则以及序列模式等方法,而语义Web挖掘方法则是当前研究的前沿[100]。①聚类方法:在个性化推荐中,常用的聚类策略就是交易事务聚类和页面视图文件聚类。交易事务聚类需要赋予每个交易事务中各个页面视图文件一定的权重,利用标准的聚类算法(如k-means方法)就可以将这些交易事务划分为不同的聚类。页面视图文件聚类则是依据用户的访问模式。此时,每个交易事务便成为聚类的依据,即用每个页面视图文件在每个交易事务中的权重来表示每个页面视图文件。另外,挖掘隐藏在高维源数据子维属性空间中对象相似模式的聚类方法也是当前研究的热点。如文献[101]中的CLIQUE模式,文献[102]中的PROCLUS模式和文献[103]中的ORCLUS算法以及文献[104]中的Fascicles方法。此外,国内学者也提出了多种基于聚类的个性化推荐方法,如王太雷提出的基于相似模式聚类的电子商务网站个性化推荐系统[105],岳训等人提出的基于矩阵聚类的电子商务网站个性化推荐系统[106],李瑞提出的基于蚁群聚类算法的推荐系统[107]等。②关联规则方法:个性化推荐中的关联规则分析主要是针对交易事务而言的,它能捕获在交易事务中同时出现的页面视图之间的关联度(不考虑出现的顺序)。目前,关联规则分析主要采用的是Apriori、DIIP、Tree Project、FP-tree等算法,来找到经常出现在交易事务中的频繁页面集。依据关联规则分析的结果,就可以产生个性化推荐模型。如,文献[108]中提出的“top-N”推荐系统就是利用关联规则分析来作推荐。③序列模式方法:通过分析在众多交易事务中经常出现的序列,捕获经常被用户访问的页面轨迹,即频繁序列,将频繁序列与用户当前会话进行匹配,从而产生个性化推荐页面集。④语义Web挖掘方法:将Web领域本体与个性化推荐有机整合,利用Web领域本体具有的揭示Web领域概念所固有的属性以及概念之间复杂关系的功能,提高个性化推荐的准确度。这也是目前个性化推荐技术的前沿领域。在具体研究中,继Dai和Mobasher[109]两人提出整合领域知识的个性化推荐思路之后,Jin-Xin等人[110]提出了一种基于概率的潜在语义模型的整合Web使用和内容的个性化方法,潘红艳、林鸿飞、赵晶[111]针对传统信息推送系统没有考虑词之间的潜在关系而造成系统推送质量下降的不足,设计并实现了一个基于Ontology的个性化推送系统,把零散的关键词组织成一个网状结构,提供了一个用户特征的抽象视图,并且半自动的实现了本体的构建。
3.4.3 其他应用
(1)站点优化[112]
www在每个提供信息资源的服务器上都有一个结构化较好的记录集,即Web访问日志。每当有获得资源的请求时,Web服务器都将记录那些有关用户交互作用的数据。利用数据挖掘技术分析Web访问日志可以帮助理解用户的行为及其访问路径,以此来协助管理者优化站点结构、提高站点的访问效率、构造合理的Web服务器、提高用户访问的有效性等。目前常用的有:站点性能优化,即利用W eb使用挖掘技术优化运行性能和加速数据传输速度; Web设计优化的研究主要集中自适应站点(Adaptive Website)方面的研究,它的终极目标是让Web站点具备自动学习和设计优化功能。现阶段主要集中于各种支持优化站点结构数据挖掘技术。常用的自适应站点策略有在线推荐和离线调整两种。如文献[113]提出一种基于访问点击数和节点在网站中所处的层次来度量用户搜寻页面的困难程度的日志挖掘优化方案。
(2入侵检测
在入侵检测系统中使用数据挖掘技术,通过分析历史数据可以提取出用户的行为特征、总结入侵行为的规律,从而建立起比较完备的规则库来进行入侵检测。如应用关联分析、序列模式分析、分类聚类等算法,发现特征之间的关联和与时序有关的联系,从而完成用户数据收集与特征选择过程。其中,关联分析算法主要用于挖掘出记录中不同属性之间的有关联的相互关系;序列模式分析算法主要是为了获取不同数据记录之间在时间上的关系;分类算法所得到分类模型,被用来预测新的审计数据是正常还是异常,从而进行异常检测;聚类算法直接将未知的数据通过聚类算法聚成不同的类,同一类的数据相似性大,不同类的数据相似性小,从而直接将获得的数据划分成正常类和异常类。
基于数据挖掘的入侵检测方法,首先由哥伦比亚大学的Wenke Lee提出,在他的一系列研究论文中,详细阐述了针对基于网络的审计数据和基于主机的系统调用数据,利用分类分析、关联分析、序列分析等数据挖掘技术在审计数据中提取用户的行为特征,并应用到异常检测和误用检测之中。应用数据挖掘的误用检测系统有: JAM(Java Agents for Meta learning,元学习Java代理)和MADAM ID(Mining Audit Data for Automated Models for Intrusion Detection,基于审计数据挖掘的智能入侵检测。其他基于数据挖掘的异常入侵检测系统有ADAM(Audit Data Analysis and Mining)、IDDM(Intrusion Detection using Data Mining)和eBayes。与此同时,IBM、哥伦比亚大学、纽约州立大学等研究单位相继开始进行基于数据挖掘的入侵检测研究[114]。
4 基于数据挖掘的信息资源智能管理展望
4.1 数据挖掘与信息资源智能管理
信息资源智能管理就是综合应用人工智能、知识管理、数据挖掘等多学科理论、方法与技术,模拟人类的智能来实现信息与知识的获取、组织、存储、处理、检索和服务的过程,并促进数字信息资源向知识资源的智能转换。其中,信息资源的获取和处理作为信息资源管理流程的初始环节,其效率和质量将影响整个流程。数据挖掘作为有效的大规模信息获取和处理的关键技术,已经广泛渗透到智能信息获取、智能信息处理、智能信息检索和搜索、智能信息服务等智能信息资源管理技术领域的各个环节,基于数据挖掘的智能信息资源管理将成为今后的研究热点。
4.2 智能获取和处理展望
智能信息处理是一种综合利用人工智能、自然语言理解、机器学习、量子计算等理论和技术对复杂信息和海量信息进行加工和处理的技术。在广泛的知识环境下,海量数字信息资源中的隐性知识发现需要强大的智能信息处理技术来实现。目前,图书情报界和计算机常用的智能信息处理技术主要基于两方面进行:自然语言理解和计算智能,并衍生了智能分类、智能标引、智能文摘、智能检索、机器翻译等信息资源智能管理应用。
在传统的信息资源管理方式下,由于信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,从而难以实现相关资源的语义融合和处理。基于本体的语义处理是智能信息处理技术的重要组成部分,也是泛在知识环境下信息资源智能处理的主流技术。本体方法是一种概念化的知识表示方法,能够描述信息资源深层的语义知识,还支持语义推理和语义检索功能。利用本体方法表达知识挖掘过程中的语义知识,如语义元素、语义关联、语义结构、语义情景,能够有效地实现语义层面的知识挖掘和获取,进而实现智能处理。
4.3 智能搜索与检索展望
智能信息搜索是以自然语言理解和数据挖掘技术为基础的新一代信息检索技术。它将信息检索从基于关键词层面提高到基于知识(或概念)层面,搜索过程强调对知识的理解与处理,这种搜索方式具有信息服务的智能化、人性化特征,它是根据目前搜索引擎的发展趋势,除提供传统的全网快速检索、相关度排序等功能外,还提供角色登记、智能化信息过滤和推送等功能,为用户提供了一个真正个性化、智能化的网络工具。随着数据挖掘与语义Web的融合,数据挖掘向知识挖掘转化,智能搜索引擎也逐步向知识搜索引擎转化。
目前,智能搜索与检索主要向智能性、主动性、交互性、个性化等方向发展:
(1)智能性。智能搜索引擎的搜索器可以对特定站点甚至遍历整个因特网自动完成在线信息的索引,通过启发式学习采取最有效的搜索策略,再选择最佳时机获取信息;智能化搜索引擎也可以将多个搜索引擎的搜索结果整合,作为一个整体存放到数据库中。
(2)主动性。智能搜索引擎能通过与用户交互的过程学习,了解用户的兴趣爱好,并通过不断地训练学习,增长智能,根据用户对返回信息的评价,调整自己的行为。
(3)交互性。智能搜索引擎允许用户通过自然语言与其进行交互。它采取诸如语义网络等智能技术,通过汉语分词、句法分析以及统计理论有效地理解用户的请求,并能对搜索结果进行合理的解释。
(4)个性化。智能搜索引擎通过有效的分类为用户提供个性化的服务,允许用户自己定制起始页面,选择感兴趣的内容和常用服务放在其中。
4.4 智能信息服务展望
智能信息服务主要是指以信息为对象,以网络为平台,利用一定的知识和推理方法,通过对用户特征、习惯的分析,主动预测用户潜在信息行为,并有针对性地向用户提供所需的信息和知识服务。它主要包括三层含义:首先是针对不同的用户需求提供不同的服务:其次是预测潜在用户及用户的潜在需求,进行主动的信息服务:再次是在服务过程中自我学习并不断调整,以适应用户需求的变化。
随着数据挖掘在信息资源管理领域应用的不断深入,信息资源的组织方式、信息资源的服务模式、信息资源的服务内容将在数据挖掘影响下不断智能化。数据挖掘可以辅助完成信息服务中的用户智能建模、资源自动标引和分类、信息反馈的智能处理等工作,通过分析所建立的用户需求模型,利用数据挖掘技术根据用户需求的变化改进信息服务的资源内容、结构设计及服务方式,为用户提供智能信息检索服务、智能信息推荐服务、智能知识决策服务等智能化的信息服务。
(1)智能信息检索服务。不同专业的用户检索习惯、方式及要求不尽相同。网站可以通过智能搜索引擎来提供智能信息检索服务,满足不同用户的检索要求。智能搜索引擎融合了数据挖掘的先进技术,具有良好的智能化与人性化功能,主动为用户提供智能化检索服务,不仅提高了检索效率和质量,而且为用户提供了更为主动、快速、准确的信息服务。
(2)智能信息推荐服务。信息推荐的功能是通过用户信息需求偏好模型的优化和连续改进,针对网络用户的信息咨询请求,推送用户所需要的信息并给用户的决策提供支持帮助。不同类型的用户兴趣爱好不一样。网站不仅要了解用户的信息需求,还要深入分析用户的兴趣模式,然后针对不同的用户及时搜集可能会引起其兴趣的信息,并主动向用户推荐其可能需要的信息。智能信息推荐服务注重主动性和个性化服务,可自动选择邮件推送、“栏目”推荐、定制网页等多种途径的组合方式为主动用户提供个性化信息和知识。
(3)智能知识决策服务。不同知识层次的用户要求服务的深度也不一样。智能知识决策服务属于更高层面的信息服务,它主要针对服务要求更高的用户,运用知识发现技术,对所搜集的信息内容进行深层次的分析与挖掘,向用户提供能够用于决策支持、难题解答、专题研究等一些决策性服务。例如网站可以通过建立专家在线咨询系统来提供智能知识决策服务。
5 结束语
数据挖掘的出现为从海量数据中发现人们感兴趣的隐含的、事先未知的信息,解决知识获取这一难题提供了有效的解决方案,同时也为信息资源管理领域中对知识信息的深层次利用开辟了新的发展空间。为了将数据挖掘推入到更高的层次,国内外学者及机构从数据挖掘在信息资源采集、分析、检索、服务等领域的应用进行了研究和实践探索,并提出了借助本体进行语义层面的知识挖掘和融合人工智能、机器学习进行智能挖掘的研究思路。从研究进展来看,目前对数据挖掘的研究主要在于应用数据挖掘的某个或多个方法技术(如分类、聚类、关联规则等)提高信息资源管理的效率,随着信息资源管理逐步向自动化、智能化发展,数据挖掘理论与实践还需进一步发展来跟踪应用需求。由于数据挖掘理论与实践尚不成熟,其研究的人工智能、知识管理基础相对薄弱,本文只是概括性地分析了目前的研究现状与实践进展,许多问题还需要进行深入而细致的研究与总结。
【注释】
[1]陈京民,等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2006.
[2]Han,Jiawei,Kamber,Micheline著.数据挖掘概念与技术[M].范明,孟小峰,等译.北京:机械工业出版社,2001.
[3]Zhang,Yan-Qing,Shteynberg,M.,Prasad,S.K.,Sunderraman,R..Granular Fuzzy Web Intelligence Techniques for Profitable Data Mining[C].The 12th IEEE International Conference on Fuzzy Systems(FUZZ 03),May 2003:1462-1464.
[4]Wang,Lipo,Fu,Xiuju.Data Mining with Computational Intelligence[M].Berlin,Heidelberg:Springer-Verlag,2005.
[5]史忠植.知识发现[M].北京:清华大学出版社,2002.
[6]李德仁.空间数据挖掘理论与应用[M].北京:科学出版社,2006.
[7]焦李成.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006.
[8]薛惠锋,等.智能数据挖掘技术[M].西安:西北工业大学出版社,2005.
[9]Markus Ackermann,等.语义学,Web与数据挖掘:EWMF 2005与KDO 2005/会议文集[M].长沙:湖南文艺出版社,2005.
[10]Sarnovsky,M.,Paralic,M..Text Mining Workflows Construction with Support of Ontologies[C].Proc.of the 6th InternationalSymposium on Applied Machine Intelligence and Informatics,SAM I'08,January 21-22,2008,Herlany,Slovakia.Hungary: Budapest Polytechnic,c2008:173-177.
[11]陈骏.基于语义网的文本信息分类技术研究[D].南京:南京理工大学,2007.
[12]郑旭玲,周昌乐,李堂秋,等.基于关联规则挖掘的汉语语义搭配规则获取方法[J].厦门大学学报:自然科学版,2007(3).
[13]Jason J.Jung,GeunSik Jo..Semantic Analysis for Data Preparation of Web Usage Mining[C]//Proceedings of the 17th International Conference on Innovations in Applied Artificial Intelligence,Ottawa,Canada.Berlin,Heidelberg:Springer,2004: 1249-1258.
[14]Luhn.,H.P..The Automatic Creation of Literature Abstracts[J].IBM Journal of Research and Development,1958,2(2): 159-165.
[15]Maron,M.E.,Kuhns,J.L..On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Association for Computer Machinery,1960,7(3):216-244.
[16]付光宇.国外网络信息资源采集研究及其启示[J].图书情报论坛,2008(4).
[17]王延飞.竞争情报方法[M].北京:北京大学出版社,2009.
[18]唐志.主题Web信息采集与分析技术研究[D].重庆:重庆大学硕士论文,2006.
[19]Menzcer,F..Is Agent-Based Online Search Feasible?[C]Working Notes of the AAAI Spring Symposium on Intelligent Agents in Cyberspace,Stanford,USA,March 1999.
[20]Moukas,A..Amalthaea:Information Discovery and Filtering Using a Multiagent Evolving Ecosystem[C].Proc.Of the Conf. on Practical Applications of Intelligent Agents&Multi-Agent Technology,London,1997,11(5):437-457.
[21]Lieberman,H..Letizia:An Agent That Assists Web Browsing[C].Proceeding of the International Joint Conference on AI.Montreal,Canada,Aug,1995:924-927.
[22]吴晓伟,徐福缘,吴伟昶.竞争情报系统成功建设模型及其实证研究[J].情报学报,2005(4):473-484.
[23]包昌火,赵刚,黄英,等.略论竞争情报的发展走向[J].情报学报,2004(3):352-366.
[24]王翠波,张玉峰,吴金红,艾丹祥.基于数据挖掘的企业竞争情报智能采集策略研究(I)——采集现状调查与分析[J].情报学报,2009(1).
[25]http://www.megaputer.com/textanalyst.php[EB/OL].
[26]张晓翊,张玉峰.基于的竞争情报智能采集模型研究[J].情报科学,2006(12).
[27]徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报:社会科学版,2007(1):89-93.
[28]刘毅.网络舆情研究概述[M].天津人民出版社,2007.
[29]纪红,马小洁.论网络舆情的搜集、分析和引导[J].华中科技大学学报:社会科学版,2007(6).
[30]I.Mani and G.Wilson.Robust temporal processing of news[A]//Roceedings of ACL,2000:69-76.
[31]James Allan,Rahul Gupta,Vikas Khandelwal.Temporal Summaries of News Topics[C].Proceedings of SIGIR,2001:10-18.
[32]http://www.nesstar.com/[EB/OL].
[33]Laender,A.,Ribeiro-Neto,B.,Silva,A.,Teixeira,J..A Brief Survey ofWeb Data Extraction Tools[J].ACM SIGMOD Record,2002,31(2):84-93.
[34]刘毅.内容分析法在网络舆情信息分析中的应用[J].天津大学学报:社会科学版,2006(7).
[35]黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009(1).
[36]许鑫,章成志.互联网舆情分析及应用研究[J].情报科学,2008(8).
[37]http://www.knowlesys.cn/[EB/OL].
[38]http://vilimpoc.org/research/datavis-tia/[EB/OL].
[39]http://reality.media.mit.edu/[EB/OL].
[40]Edna Reid,Marc Sageman.The Dark Web Portal Project:Collecting and Analyzing the Presence of Terrorist Groups on theWeb[J].Intelligence and Security Informatics,Springer,Berlin,2005.
[41]Agrawal,A.,Imielinski,T.,Swami,A..Mining Association Rules between Sets of Items in Large Databases[C].Proceedings of the ACM SIGMOD Conference on Management of data,1993: 207-216.
[42]Agrawal,R.,Shafer,J..Parallel Mining of Association Rules: Design,Implementation,and Experience[J].Technical Report FJ10004,IBM Almaden Research Center,San Jose,CA 95120,Jan.1996.
[43]Savasere,A.,Omiecinski,E.,Navathe,S..An Efficient Algorithm for MiningAssociation Rules in Large Databases[J].Proceedings of the 21st International Conference on Very large Database,1995.
[44]Park,J.S..Chen,M.S.,Yu,P.S..An Effective Hash-based Algorithm for Mining Association Rules[C].Proceedings of ACM SIGMOD International Conference on Management of Data,pages175-186,San Jose,CA,May 1995.
[45]Toivonen,H..Sampling Large Databases for Association Rules[C].Proceedings of the 22nd International Conference on Very Large Database,Bombay,India,September 1996.
[46]Mannila,H.,Toivonen,H.,Verkamo,A..Efficient A lgorithm for Discovering Association Rules[J].AAAI Workshop on Knowledge Discovery in Databases,1994:181-192.
[47]Lin,J.L.,Dunham,M.H..Mining Association Rules:Antiskew Algorithms[C].Proceedings of the International Conference on Data Engingeering,Orlando,Florida,February 1998.
[48]Edith Cohen,Mayur Datar,Shinji Fujiwara,Aristides Gionis,Piotr Indyk,Rajeev Motwani,Jeffrey D.U llman,Cheng Yang.Finding Interesting Associations without Support Pruning[C].Proceedings of International Conference on Data Engineering,2000:489-500.
[49]Han,J.,Pei,J.,Yin,Y..Mining Frequent Patterns without Candidate Generation[C].Proc.2000 ACM-SIGMOD Int. Conf.Management of Data(SIGMOD'00),Dalas,TX,May 2000.
[50]Yao,J.T.,Yao,Y.Y..A Granular Computing Approach to Machine Learning[EB/OL].http://www2.cs.uregina.ca/~jtyao/Pagers/Grc Mining—1534.pdf,2002.
[51]Yao,Y.Y.,Yao,J.T..Induction of Classification Rules by Granular Computing[C].Proceedings of The Third International Conference on Rough Sets and Current Trends in Computing,2002.
[52]Yao,Y.Y.,Yao,J.T..Granular Computing as a Basis forConsistent Classification Problems[C].Proceedings of PAKDD'02 Workshop on Toward the Foundation of Data Mining,2002:101-106.
[53]Zhao Yan.Coarsening Classification Rules on Basis of Granular Computing[J]//Taw,A.Y.,Goodwin,S.D..eds..Canadian AI 2004 LNAI 3060,2004:578-579.
[54]Wang,H.,Dubitzky,W.,Düntsch,I.,et al.ALattice Machine Approach to Automated Casebase Design:Marrying Lazy and Eager Learning[C].Proc.IJCAI99,Stockholm,Sweden,1999.254-259.
[55]Guo Gongde,Wang Hui,BellD.A.,et al..KNN Model-BasedApproach in Classification[J].CoopIS/DOA/ODBASE,2003: 986-999.
[56]Guo Gongde,Wang Hui,Bell.D.A.,et al..A KNN Modefl-Based Approach and Its Application in Text Categorization[C].CICLing 2004,2004:559-570.
[57]Ye Nong,LiXiangyang.A Machine Learning Algorithm Based on Supervised Clustering and Classification[J]//Liu J,et al,eds.AMT 2001,LNCS 2252,2001:327-334.
[58]Schohn,G.,Cohn,D..Less:Active Learning with Support Vector Machines[C].Proc.17th Int Conf.Machine Learning,Stanford,CA,2000.
[59]Yu H Wanjo,Yang Jiong,Han Jiawei.Classifying Large Data Sets Using SVMs with H ierarchical Clusters[C].SIGKDD'03,Washington,DC,USA,Aug.2003.
[60]Fung G,Mangasarian,O.L..Incremental Support Vector Machine Classification[C]//Grossman,R.,Mannila,H.,Motwani,R.,eds..Proceedings of theSecond SIAM InternationalConference on DataM ining,SIAM(2002),2002:247-260.
[61]花蓓.基于决策树方法的信用卡审批模型分析[J].福建电脑,2005(9).
[62]徐远纯,柳炳祥,盛昭瀚.一种基于粗集的欺诈风险分析方法[J].计算机应用,2004(1).
[63]Guha,S.,RastogiR,Shim,K..CURE:An Efficient Clustering Algorithm for Large Databases[C].Seattle:Proceedings of the ACM SIG MOD Conference,1998:73-84.
[64]Guha,S.,RastogiR,Shim,K..ROCK:A Robust Clustering Algorithm for Categorical Attributes[C].Sydney:Proceedings of the 15th ICDE,1999:512-521.
[65]Karypis,G.,Han E-H,Kumar,V..CHAMELEON:A Hierarchical Clustering A lgorithm Using Dynamic Modeling[J].IEEE Computer,1999,32(8):68-75.
[66]Wang,W.,Yang,J.,Muntz R..STING:A Statistical Information Grid Approach to Spatial Data M ining[C].A thens:Proceedings of the 23rd Conference on VLDB,1997.186-195.
[67]Wang,W.,Yang,J.,Muntz,R.R..STING:An Approach to Active SpatialData Mining[C].Sydney:Proceedings of the 15th ICDE,1999.116-125.
[68]Agrawal,R.,Gehrke,J.,Gunopulos.D.,et al..Automatic Subspace Clustering of H igh Dimensional Data for Data Mining Applications[C].Seattle:Proceedings of the ACM SIGMOD Conference,1998:94-105.
[69]吴耿锋.数据资源聚类预处理及其应用研究[D].上海:上海大学博士论文,2007.
[70]http://www1.cs.columbia.edu/nlp/newsblaster/[EB/OL].
[71]http://www.vivisimo.com[EB/OL].
[72]http://www.infonetware.com[EB/OL].
[73]Baxendale,P.E..Machine-made Index for Technical Literature—an Experiment[J].IBM Journal of Research and Development,1958,2(4):354-361.
[74]Edmundson,H.P.,Oswald,V.A..Automatic Indexing and Abstracting of the Contents of Documents[R].Planning Research Corp,Document PRCR-126,ASTIA AD No.231606,Los Angeles,1959:1-142.
[75]Maron,M.E.,Kuhns,J.L..On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Association for Computer Machinery,1960,7(3):216-244.
[76]Edmundson,H.P..New Methods in Automatic Abstracting Extracting[J].Journal of the Association for Computing Machinery,1969,16(2):264-285.
[77]Lois,L.E..Experiments in Automatic Indexing and Extracting[J].Information Storage and Retrieval,1970(6):313-334.
[78]Salton,G.,Yang,C.S..On the Specification of Term Values inAutomatic Indexing[J].Journal of Documentation,1973,29(4):351-372.
[79]Salton,G.,Wong,A.,Yang,C.S..A Vector Space Model for Automatic Indexing[J].Communications of ACM,1975,18(11):613-620.
[80]Dillon,M.,Gray,A.S..FASIT:A Fully Automated Syntactically Based Indexing System[J].Journal of the American Society for Information Science,1983,34(2):99-108.
[81]Devadason,F..Computerization of Deep Structure Based Indexes[J].International Classification,1985,12(2):87-94.
[82]Deerwester,S.,Dumais,S.T.,Landauer,T.K.,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[83]Silva,W.T.,MiliDiu,R.L..Belief Function Model for Information Retrieval[J].Jounral of theAmerican Society for Information Science,1993,44(1):10-18.
[84]Cohen,J.D..H ighlights:Language and Domain-independent Automatic Indexing Terms for Abstracting[J].Journal of the American Society for Information Science,1995,46(3):162-174.
[85]Frank,E.,Paynter,G.W.,Witten,I.H..Domain-Specific Keyphrase Extraction[C]//Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence.Stockholm,Sweden,Morgan Kaufmann,1999:668-673.
[86]Turney,P.D..Learning to Extract Keyphrases from Text[R].NRC Technical Report ERB-1057,National Research Council,Canada,1999:1-43.
[87]Anjewierden,A.,Kabel,S..Automatic Indexing of Documents with Ontologies[C]//Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence(BNA IC-01).Am-ster-dam,Neteherlands,2001:23-30.
[88]Hulth,A..Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C].Proceedingsof the2003 Conference on Emprical Methods in Natural Language P-rocessing.Sapporo,Japan,2003:216-223.
[89]李素建,王厚峰,俞士汶,等.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197.
[90]Zhang K.,Xu H.,Tang J.,et al..Keyword Extraction Using Support Vector Machine[A].Proceedings of the Seventh International Conference on Web-Age Information Management(WA IM2006).Hong Kong,China,2006:85-96.
[91]Ercan,G.,Cicekli,I..Using Lexical Chains for Keyword Extraction[J].Information Processing and Management,2007,43(6):1705-1714.
[92]吕万鹏.浅谈数据挖掘技术与用户知识获取[J].黑龙江科技信息,2008(22).
[93]张玉峰,等.智能信息系统[M].武汉:武汉大学出版社,2008:340-342.
[94]晏创业,张玉峰.智能检索中的网络数据挖掘技术探索[J].中国图书馆学报,2002(3).
[95]何坤鹏,郭海波.Web日志挖掘技术及其应用研究[J].中国科技信息,2007(16).
[96]左晖,张玉峰,艾丹祥.个性化知识服务中基于Ontology的用户兴趣挖掘研究[J].情报学报,2008(2).
[97]李珊,白彦霞,云彩霞等.基于用户行为和Web日志的用户兴趣挖掘[J].计算机时代,2008(7).
[98]王殿佑.一种基于数据挖掘技术的馆藏资源个性化推荐服务[J].情报学报,2008(12).
[99]易明.基于Web挖掘的电子商务个性化推荐机理与方法研究[D].武汉:华中科技大学博士论文,2006.
[100]Rakesh Agrawal,Johannes Gehrke,Dimitrios Gunopulos,etal..Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications[C].Proc.of ACM SIGMOD.1998:94-105.
[101]Charu,C..Aggarwal,Cecilia Procopiuc,Joel L.Wolf,et al.. Fast Algorithms for Projected Clustering[C].SIGMOD.1999: 61-72.
[102]Aggarwal,C.C,Yu,P.S..Finding Generalized Projected Clusters in High Dimensional Spaces[C].SIGMOD.2000:70-81.
[103]Jagadish,H.V.,Madar,J.,Ng.R.T..Semantic Compression and Pattern Extraction with Fascicles[C].Proceedings of the 25th International Conference on Very Large Data Bases(VLDB99).1999:186-198.
[104]王太雷.基于相似模式聚类的电子商务网站个性化推荐系统研究[J].计算机工程与应用,2005(6):152-157.
[105]岳训,苗良,巩君华等.基于矩阵聚类的电子商务网站个性化推荐系统[J].小型微型计算机系统,2003,24(11): 1922-1925.
[106]李瑞.蚁群聚类算法及其在推荐系统中的应用[D].西安:西南师范大学硕士论文,2005.
[107]Sarwar,B.M.,Karypis,G.K.,Konstan,J.A.,et al..Application of Dimensionality Reduction in Recommender Systems: A Case Study[C].Proceedings of the WebKDD 2000Workshop at the ACM SIGKKD 2000.Boston,2000:82-90.
[108]Dai,H.K.,Mobasher,B..Using Ontologies to Discover Domain-level Web Usage Profiles[C].Second Workshop on Semantic Web Mining at the 6th European Conference on Principles and Practice of Knowledge Discovery in Databases(PKDD'02).Helsinki,Finland,2002:61-82.
[109]Jin,X.,Zhou,Y.,Mobasher,B..A Unified Approach to Personalization Based on Probabilistic LatentSemantic Models of Web Usage and Content[C].Proceedings of the AAAI 2004workshop on Semantic Web Personalization.San Jose,2004.
[110]潘红艳,林鸿飞,赵晶.基于Ontology的个性化推送系统[J].计算机工程与应用,2005,(20):176-180.
[111]王祥.Web数据挖掘在网站优化中的应用[D].上海:复旦大学硕士论文,2004.
[112]韦升华.基于数据挖掘的入侵检测技术应用研究[D].重庆:重庆大学硕士论文,2008.
[113]叶鹰.智能信息处理的基础理论探讨[J].情报科学,2008(9).
[114]赵靖.面向智能搜索的Web信息挖掘技术研究[D].哈尔滨:哈尔滨工程大学硕士论文,2009.
【作者简介】
张玉峰,女,1946年生,武汉大学信息管理学院教授、博士生导师。1987—1988年赴美国伊利诺伊大学访问学习信息管理与人工智能。主要研究方向:计算机信息系统工程、人工智能、知识管理与电子商务。出版专著《智能信息系统》、《决策支持系统》、《信息可视化与知识检索》等5部,发表论文90余篇,已主持和参加国家社会科学基金项目、国家自然科学基金项目、教育部人文社会科学研究重大资助项目等10余项。获湖北省高等学校省级教学成果一等奖、湖北省第四届社会科学优秀成果二等奖、省级科学技术成果三等奖等10多项奖励。
董坚峰,男,1977年生,武汉大学信息管理学院2007级博士生,吉首大学信息管理与工程学院讲师。
胡凤,女,1980年生,武汉大学信息管理学院2008级博士生。
【注释】
(1)本文系教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08JJD870225)研究成果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。