数据中存在着丰富的信息,人们对这些信息的需求和探索推动了数据挖掘技术的产生与发展,并日渐形成了完整的数据挖掘体系。梳理数据挖掘的内涵信息,对于从整体上把握当代大数据挖掘议题并深入研究相关话题具有重要价值。
一、数据挖掘的概念与发展
大数据时代的来临使得以互联网为基础的行业产生了海量的数据,诸如一分钟之内,搜索引擎中百万条的搜索记录;十几秒,购物网站超1亿的成交量;热点事件,社交平台转发动辄十几万的评论点赞量等,都是庞大数据的体现。以我国某著名电子商务网站的大数据为例,统计分析了一个星期之内的女式连衣裙商品买卖状况,从搜索词、热门地区、年龄阶段占比、性别占比等各个角度较为全面的说明了购物者的情况,如图4-1、图4-2所示。
不仅是互联网行业,大数据的影响力已经辐射到传统行业,影响到生活的方方面面,并向新的领域拓展。它不只是正在发生的大事件,也是将要发生的大事件,在预测事物未来发展方面有着前瞻性作用。例如2014年美国经济学家大卫·罗斯柴尔德(David Rothschild)曾利用大数据成功预测出奥斯卡24个奖项中的21个[1]。
图4-1 电商购物平台连衣裙热门搜索词与热买地区图
图4-2 电商购物平台连衣裙买家分析图
有统计显示,全球七大重点领域内(教育、交通、消费、电力、能源、健康以及金融),大数据的应用价值预计在32 200-53 900亿美元之间[2]。但大数据体量大、类型多、数据提纯复杂,如何从如此规模的数据中获取所需要的内容,这无疑大大增加了工作内容的复杂性。为了提高处理问题的效率以及从大数据中获取有价值的信息,开发大数据的价值,数据挖掘(Data M ining)的重要性得到凸显。
数据挖掘,更普遍的说法应是从数据中挖掘知识,通常与KDD(Know ledge Discovery in Database,基于数据库的知识发现)联系在一起。实际上,从20世纪80年代产生这一概念以来,跟随时代的需要,来自不同领域的专家学者们都致力于在各自的领域中对数据挖掘进行研究,使得数据挖掘概念与技术获得了长足的发展。目前国际上每年都会召开以它为主题的会议,沟通交流成果。如SIGKDD(数据挖掘及知识发现会议)、SIGMOD(数据管理国际会议)、VLDB(超大型数据库)、ICDE(数据工程国际会议)、ICDM(数据挖掘国际会议)、EDBT(拓展数据库技术国际会议)等诸多国际会议组织,这些众多的组织以及它们一系列有着广泛影响力的会议成果,无一不彰显着数据挖掘这一领域所受到的世界关注。
本书中,我们将数据挖掘的概念定义为:从海量的、繁杂的、随机的实际应用数据中,提取隐含在其中的未知的或验证已知的但又是潜在有用的知识和规律的过程。
数据挖掘的功能总体而言可以理解为两点。
(一)提取未知的知识和规律
自人类诞生以来为了更加了解自己,更加了解这个世界而深入研究,乐此不疲。在没有“大数据”以前,人们只能通过手工处理、样本推测的方法对事物的规律进行猜想。当有了计算机这种新型数据处理媒介,大数据就突显出前所未有的价值。
大数据的魅力在于为我们提供了一种新的探知未知领域的方式,我们不会因为固有的一些思路,而忽视新的见解。大数据的挖掘将我们预想不到的相关性结果直接呈现在我们的面前。例如有学者通过问卷调查发现,教师的个人魅力,和学生的学习成绩有很大的相关性。因此,如何让学生喜欢上自己,也不失为一个提高学生学业质量的好方法。
(二)验证已知的知识和规律
人们通过理论基础会推断出一些结论,或是通过主观看法得出一些判断。在以往,人们对这些结论争执不休,而如今,通过大数据的挖掘,也许就能够得出用事实数据证明的答案。套用一句伟人的话:“没有调查研究,就没有发言权。”那么,我们也可以说:没有大数据验证,就没有相关性。
这些数据挖掘是对已经意识到事物之间可能有关联而做的验证。鉴于此,近年来关于人类健康的重要话题“转基因食物究竟对人体是否有害”的争议,也许某一天能用大数据来寻找出答案。
数据挖掘迎合了当今社会日益增长的数据分析的需要,尤其是在政府机构、科研部门、商业、公共事业等领域中的需求明显增加。作为通用的技术,它可以应用在任何对目标有用的各种类型的数据上,创造潜力巨大的价值,同时也是现代信息技术更加进步的体现。
二、数据挖掘的过程与方法
数据挖掘经过几十年的发展,不断地探索和调整,形成了较为完整的数据挖掘体系,为不同的挖掘目的服务。
(一)数据采集
数据挖掘自然少不了数据。挖掘的数据来源类型主要可分为三大类:即数据库数据、数据仓库、事务数据,另外还含有其他类型的一些数据[3],如表4-1所示。
表4-1 数据挖掘的数据来源分类
其他类型数据包括时间相关序列数据(如历史记录)、数据流(如视频监控)、空间数据(如地图)、工程设计数据(如建筑数据)、超文本和多媒体数据等等。由此可见,数据挖掘的数据源类型多种多样,是蕴含丰富内容的宝库,但类型的多样性带来的操作复杂性同时也为数据挖掘提出了许多的挑战。
(二)数据预处理
由于采集的原始数据中无意义的成分很多,数据来源结构复杂,不同的系统间也存在着不同的标准,加上系统设计存在的不合理性,时常出现系统数据的重复、冗余和不完整导致大量模糊信息的现象。而这阻碍了数据挖掘的针对性和准确性,影响数据挖掘的执行效率,不利于挖掘目标的达成。因此,对原有数据进行有效的处理也就是数据挖掘之前的数据预处理工作很有必要,已经成为数据挖掘中的重要一环。
数据预处理即是在数据挖掘任务前对原始数据所做的处理,将原始数据转化为适用于数据挖掘的数据。数据预处理为进一步的数据分析做准备,提高数据挖掘的效率和质量。通常而言,数据预处理一般按照以下四个步骤:数据选取、数据表属性一致化、数据清理、数据离散化(数据归约)[4]。
数据选取是在原始数据库中选取与任务相关的数据表项,通过对数据的筛选有效地利用资源。数据选取的方式一般通过事先编制好的程序来进行选择,在数据仓库的基础上进行选取会让操作更为便捷。数据表属性一致化是指根据挖掘的需求把不同呈现的样式的数据用统一的标准重新表示,方便数据挖掘人员对于挖掘对象有清晰的认识。数据清理是指填补空缺的数据、处理错误数据、消除噪声数据、去除孤立点,以此改善待挖掘数据的质量,提高挖掘的信度。数据离散化(数据归约)是指将待挖掘数据进行更深一步规模上的处理在保留数据完整性的前提下缩小处理的规模,达到提高数据处理效率的效果。主要包括元组归约(连续属性离散化与概念分层)和属性的归约。
数据预处理的过程是数据挖掘的整个流程中非常重要的一环,通过数据预处理,为数据挖掘的顺利进行开辟了道路,也是高效率地完成数据挖掘的前提和基础,关系到数据挖掘的成功与否。
(三)数据挖掘的技术与方法
数据挖掘技术同统计学、聚类分析与模式识别、决策树分类技术、人工神经网络和遗传基因算法、规则归纳、可视化技术等技术领域息息相关,将它们吸纳于自身的发展中,达成数据挖掘的目的。
1.数据挖掘技术
统计学中所使用的方法在数据挖掘中是收集、分析并解释数据,是最基本的数据挖掘技术。通过建立基于数学函数的统计模型,对目标进行汇总、描述以及预测,也能够应用在验证数据挖掘的结果上,在大型的统计应用中具有很大挑战性。
聚类分析与模式识别则是根据事物的特征对其进行分类,即聚类,利用数学方法对数据样本进行差异性和相似性的区分,根据亲疏关系进行聚类,并从聚集的类别中发现在事物之间的规律和典型模式,是当代分类学与多元分析的结合,直观的呈现出分析结果。
决策树分类技术是由于分析决策或事件时会产生多个结果,这些分析形成的不同的结果如果绘制出来就像树的枝干一般,用树形的结构来呈现分类和决策的结果,并从中发现规律。
人工神经网络和遗传基因算法在几十年的研究过程中经过高潮和低谷而今又重新处于研究的前沿热点领域中,通过计算机模拟人类大脑的特性,这种仿生学的研究在人工智能、计算机科学、认知科学等方面的应用前景被看好,对于客观规律的定量描述和网络设计编码在数据挖掘中也有帮助作用。
规则归纳即是指在数据挖掘过程中提取形式规则,搜索和挖掘以往未知的规律。可视化技术是数据挖掘结果的呈现方式,通过图片、图像、表格、动画等不同的形式便于挖掘结果的理解,指引后续的操作。
2.数据挖掘常用方法
数据挖掘的方法按照不同的分类规则有着不同的挖掘方法的分类。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等挖掘方法;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库等挖掘方法;根据挖掘方式,可粗分为机器学习、统计、神经网络和数据库4种挖掘方法[5]。
本文中,我们选择较为详细的从挖掘任务的角度来讲述数据挖掘的主要方法,如表4-2所示。
表4-2 按挖掘任务分类的挖掘方法
(续表)
(续表)
1 王新志,孙乐昌,张旻,陈韬.基于序列模式发现的恶意行为检测方法[J].计算机工程,2011(24):1-3.
(续表)
1 宋国杰,唐世渭,杨冬青,王腾蛟.数据流中异常模式的提取与趋势监测[J].计算机研究与发展,2004(10):1754-1759.
(四)数据挖掘结果呈现
数据挖掘与分析后的结果一般通过数据可视化的方式呈现。可视不只是让人看见,数据的可视化更多是便于人的理解。人从外界获得的种种信息中,图是最能直观的传达内涵的载体。通过可视化的方式,我们可以更直观地找出我们想要寻求的问题答案,帮助我们找出隐藏在各种交叉数据中的关系、趋势与偏差,发现数据中隐藏的知识与规律。可视化分析涉及意义建构、人机交互分析、分布式认知等理论,在大数据分析中扮演着尤为重要的角色,也尤其适用于复杂的数据挖掘领域。
更加细化的来分类,应用在大数据分析的可视化技术主要包括文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化等。
文本可视化是将人们日常生活中常见的文本信息中所蕴含的语义信息(如词频)等信息以视觉符号的形式表现出来。抽取文本中的特征,以合适的视觉编码和呈现方式达成可视化映射。TextArc是一种文本可视化工具,其应用如图4-3所示。
图4-3 TextArc文本可视化工具--《爱丽丝漫游仙境》文本的可视化[6]
网络(图)可视化指的是通过各类图示展现数据之间复杂的关系,是数据可视化中一个重要方面,包括社交网、互联网络、合作网络等,呈现方式多为树图、节点链接图、网状图。示例如图4-4所示。
时空数据可视化同动态多维空间数据紧密相连,通过点、线、面等要素组成呈现空间维度中的信息对象,与地理学息息相关,对时间与空间中行为对象的种种变化进行模式与规律的展示。流式地图(Flow Map)是时空数据可视化的典型应用。
多维数据可视化涉及几何、认知、评价等问题,是对具有多个维度的数据变量的分布规律与模式的属性与关系的探索。其中,空间三维图形、颜色图、亮度、数学方法是构成多维数据可视化方法的基本因素,多维数据可视化囊括散点图、投影、平行坐标等呈现方式。示例如图4-5所示。
图4-4 基于节点连接的图和树可视化方法[7]
图4-5 二维散点图[8]
数据的可视化领域的发展由于商业、科研、公共管理等助力,一直处于良好发展的态势,已经面世的侧重于不同的可视化目的的软件工具数量众多,并朝着更好的用户体验发展。
诸多类型的可视化结果中,我们常应用折线图、柱状图、饼图、气泡图、雷达图,目标明确、清晰易懂。这些基本图表如图4-6所示。
图4-6 数据可视化基本图表汇总[9]
随着技术的发展,数据可视化分析同数据挖掘联系更加紧密,成为后者结果呈现的重要方法,能最大限度地发挥人机协作的优势,让用户能够更方便地从海量数据中获得有用信息,从而推算出未来发展趋势以便做出某种决策。
(五)数据挖掘的一般流程
通过数据的准备、数据的预处理以及数据挖掘方法的选择后,我们将数据挖掘的一般流程进行总结如图4-7所示。
在数据挖掘的实际操作中,会根据现实情况进行调整和完善整个数据挖掘的流程,有时并非所有步骤都需要做到;同时这也是一个循环往复的过程,在某些步骤没有达成目标时需要回返过去重新调整执行;通常大部分的时间都会花费在数据采集和预处理中。
在数据挖掘的执行过程中,执行人员主要分为两类,一是有着业务经验的人带着技术人员对数据进行挖掘;二是将数据交给专业数据人员处理。
图4-7 数据挖掘一般流程图
【注释】
[1]奥斯卡金像奖24奖项,微软大数据成功预测21个[EB/OL].[2014-03-04].http://tech.ifeng.com/internet/detail_2014_03/04/34388282_0.shtm l.
[2]“十三五”数据中国建设蓄势待发[EB/OL].[2016-05-06].http://www.ocn.com.cn/us/shujuzhongguo.htm l#block3.
[3]Han Jia Wei, Kamber M icheline, Pei Jian.数据挖掘:概念与技术(原书第3版)[M].北京:机械工业出版社,2012.
[4]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004(7):117-118.
[5]张文宇,贾嵘.数据挖掘与粗糙集方法[M].西安:西安电子科技大学出版社,2007.
[6]http://www.textarc.org/Stills.htm l.
[7]Herman I, Melancon G, Marshall M s.Graph visualization and navigation in information visualization:A survey.IEEE Trans.on Visualization and Computer Graphics[J].2000, 6(1):24-43.
[8]Ahlberg C, Shneiderman B.Visual information seeking:Tight coupling of dynamic query fi lters w ith starfield displays[C].New York:ACM Press, 1994.
[9]阮一峰.数据可视化:基本图表[EB/OL].[2014-11-29].http://www.ruanyifeng.com/blog/2014/11/basic-charts.htm l.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。