首页 百科知识 数据挖掘技术及其应用

数据挖掘技术及其应用

时间:2023-10-03 百科知识 版权反馈
【摘要】:聚类分析还可以作为其他数据挖掘任务 的预处理步骤。这样的模式称为关联规则。关联规则挖掘已经成为商务智能中引人注目且发展相当迅速的分支。关联规则作为一种知识类型,由于它的直观性以及语义上的意义非常明确,因此在企业决策中得到了广泛的应用。而空间数据挖掘则将传统的空间统计分析技术加以扩展,与数据库系统进行结合,并改进与用户的交互,以提高新知识发现的效率和效果。

随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。 数据挖掘就是顺应这种需要而发展起来的数据处理技术,它是知识发现的关键步骤。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。 起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。 数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,还能够找出过去数据之间的潜在联系。

1. 数据挖掘的流程

①定义问题。 清晰地定义出业务问题,确定数据挖掘的目的。

②数据准备。 数据准备包括选择数据和数据预处理。 选择数据是在数据仓库目标中提取数据挖掘的目标数据集 数据预处理是进行数据再加工,包括检查数据的完整性及数据的一致性,去噪声,删除无效数据等。

③数据挖掘。 根据数据功能的类型和数据的特点选择相应的算法,在数据集上进行数据挖掘。

④结果分析。 对数据挖掘的结果进行解释和评价,转换成能够被用户理解的知识。

⑤知识的运用。 将分析所得到的知识集成到业务信息系统的组织结构中去,为决策服务。

2. 数据挖掘的方法

数据挖掘有不同的方法,不同的方法在技术实现上难度是有区别的,下面对主要的数据挖掘方法进行介绍。

(1) 分类

分类分析是最常见的数据挖掘任务之一。 分类是人类认识世界的基本方法之一。 为了理解并与周围环境交流,我们每天都在进行分类工作,如将物质分解为不同的元素,将人分为不同种族,将药品分为处方药和非处方药等。

分类分析是对对象的特征进行分析,并将其归类到已定义的类中。 在数据挖掘中,分类的对象通常表示为数据库和数据表中的记录。 要进行分类分析,首先要有一个清晰定义的类,还要有一系列已经分类的实例和记录。 分类过程实际上是先根据已有的数据及定义好的类,通过训练抽象出一个分类模型 (也称为分类器),然后将其应用于对未分类数据进行分类。

在商务智能应用中,常见的分类分析应用的实例包括将信用卡申请者根据财务情况分为低、 中和高风险,根据贷款客户的特征分为按时还贷、 延时还贷和不良还贷,等等。 因此分类是一个两步过程。 第一步基于训练数据集采用分类算法来构造分类器。 所谓训练数据集,是指一个已有的数据集,其中每条记录都已经属于一个已知的类别。 根据不同的分类算法,可以构造的分类器的形式有决策树、 神经元网络、 规则集、 贝叶斯网络等。 一旦训练得到分类器,就要进行第二步,即使用分类器对新数据集进行分类。 这个新数据集称为测试数据集。 这个步骤是根据分类器来进行预测的。

例如,某公司有一个直邮清单数据库,每条直邮清单保存了一个顾客姓名、 性别、 年龄、 职业等属性值,以及包括分发介绍产品和促销活动的信息后该顾客是否采取购买行为即可以分为购买和不购买两个类。 通过对此数据库进行分类分析,可以得到相应的分类器即可以根据顾客的相关属性值来预测该顾客能否购买。 假设有新的顾客添加到数据库中,则可以根据该分类器来预测此顾客能否购买,从而可以决定是否给该顾客直邮材料。 这个问题是商务智能中的精准营销问题,通过分类分析方法可以有效解决。

(2) 聚类

与分类不同,聚类分析是将一个数据对象的集合按照某种标准进行划分,但是要划分的类是未知的。 其结果是使一个聚类内部的数据对象按照该标准具有极高的相似性,类与类之间的数据对象的相似性很低。

聚类是一种重要的人类行为。 例如,人类在进化和发展过程中,会通过不断地改进下意识中的聚类模式来区分猫和狗,或者动物和植物,等等。 事实上,人类正是以这种聚类的方法不断对事物进行分析,从而抽象出现代人所采用的种种概念。 在商务应用中,聚类分析得到广泛应用,包括消费模式行为识别以及市场划分和研究、 对汽车保险单持有者的分组、 对不同消费群行为的归纳、 对网络上产品推荐信息的汇总等。

聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。 这种技术对发现基于相似特征,如人口统计信息、 财政信息或购买行为等进行客户细分非常有价值。 从统计学的观点来看,聚类分析是通过数据建模简化数据的一种方法。 传统的统计聚类分析方法包括系统聚类法、 分解法、 加入法、 动态聚类法、 有序样品聚类、 有重叠聚类、 模糊聚类等。

从实际应用的角度来看,聚类分析是数据挖掘的主要任务之一。 就数据挖掘功能而言聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合做进一步的分析。 聚类分析还可以作为其他数据挖掘任务 (如分类、 关联规则)的预处理步骤。

(3) 关联规则

大规模客户交易数据库中会存在数据项之间潜在的相互关系的知识模式,如年轻顾客会购买Levis牛仔裤,购买 «信息系统» 一书的顾客经常会购买 «大数据时代» 一书等。 这样的模式称为关联规则。 这种规则在网上推荐系统中用得非常多,如Amazon.com等网站就广泛采用了关联规则分析方法来更好地促进营销。

关联规则挖掘已经成为商务智能中引人注目且发展相当迅速的分支。 关联规则作为一种知识类型,由于它的直观性以及语义上的意义非常明确,因此在企业决策中得到了广泛的应用。

(4) 空间数据挖掘

空间数据库存储了大量与空间有关的数据,如地图、 遥感图片、 医学图像等。 空间数据库与传统数据库相比有显著不同的特征。 空间数据包括距离、 位置、 色块、 气温等信息,而且通常按照复杂、 多维的空间索引结构组织数据。 对数据的访问需要通过空间。

空间数据挖掘是指对空间中非显式存在的知识、 空间关系或其他有意义的模式等进行提取。

例如,通过对地质断裂带应力分析可以推断出哪些地方近期发生地震的概率较高,在这个挖掘过程中,不但需要对地质断裂带的地理位置数据进行处理,还需要结合地震历史数据和时间数据进行挖掘。 因此,空间数据挖掘需要综合数据挖掘与空间数据库技术,它可用于对空间数据的理解、 空间关系和空间与非空间数据间关系的发现、 空间知识库的构造、 空间数据库的重组和空间查询的优化。

空间数据挖掘在地理信息系统 (GIS)、 地理市场、 遥感、 图像数据库探测、 医学图像处理、 全球导航系统、 交通控制、 环境研究等许多领域有广泛的应用。 而采用传统的统计技术虽然可以很好地处理空间数据库中的数值型数据,并可以对空间现象提出相应的模型,然而,由于空间数据库中存在大量的图像、 地理位置等信息,而且更为重要的是,统计方法一般假设数据间是统计上独立,而空间对象经常是相互关联的,因此,传统统计技术不适合直接应用到空间数据上。 而空间数据挖掘则将传统的空间统计分析技术加以扩展,与数据库系统进行结合,并改进与用户的交互,以提高新知识发现的效率和效果。

(5) 多媒体数据挖掘

多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据、 视频数据、 图像数据等。 随着多媒体应用的普及,大量的多媒体数据库广泛存在于各种应用领域中,如人脸识别系统、 语音识别与模式匹配等。 典型的多媒体数据库系统包括Google Earth、 百度图像、人类基因数据库等。

由于多媒体数据相对于传统数值型数据而言,无法直接采用数值计算的方法进行分析因此需要引入更多的技术进行分析。 例如,如何判断不同图像的相似性,如何实现相似音频的搜索,如何对海量图片进行分类和聚类等,这些都需要更多地对多媒体对象进行处理,以提炼出适当的特征向量,并进一步基于此进行数值计算。

虽然对于多媒体数据,特别是图像和音频数据的处理在一些领域中已经有了比较成熟的方法和应用,如在反恐档案和追踪系统中,恐怖分子图像查询和搜索、 音频匹配与语音识别等方面。 但是,相对于其他的数据挖掘领域,多媒体数据挖掘仍然是一个比较困难和充满挑战的领域。

(6) 时序数据和序列数据挖掘

时序数据库是指由随时间变化的序列值或事件组成的数据库即每个数据对象都有一个相应的时间属性值。时序数据是非常常见的一种数据如股票市场的每日行情、气象数据等。而序列数据库是指由有序事件序列组成的数据库数据对象可能没有具体的时间标记但是有先后顺序。例如Web页面访问序列就是一种序列数据但通常并不记录访问的时间。

由于时序数据以及序列数据广泛存在于生活和工作中,特别是在商务运作中,大量与业务运行时间和序列相关的数据保存在数据库中,对这样的数据进行分析以得到有用的模式是一种非常有意义的过程。 时序数据库和序列数据库挖掘的主要内容包括趋势分析、 相似性搜索以及序列模式挖掘。

例如,分析股票的中长期趋势,分析天气变化趋势,分析经济周期运行趋势等。 一般来说,可采用移动平均方法进行处理。

在数据库查询时,通常要找出符合查询条件的精确数据,而对于时序和序列数据而言很难有精确相似的情况,因此需要采用相似性搜索方法。 相似性搜索是要找出与给定查询序列相似的数据序列。 相似性搜索在对金融市场的分析、 医疗诊断分析等领域中大有用武之地。

序列模式挖掘是指挖掘相对时间或其他模式出现高的模式。例如一个序列模式的例子是“连续三天多云可能会造成下一天雨” 或者“原材料板块股票连续一周上涨后建材板块股票会上涨” 等。由于很多商业交易、通信记录、天气数据以及生产过程都是时间序列数据因此在针对目标市场、客户定位、气象预报等的数据分析中序列模式挖掘很有用武之地。

(7) 文本数据挖掘

一类非常重要也非常常见的非结构化数据是文本数据。 文本数据来自各种数据源,如新闻文章、 研究论文、 电子书籍、 电子邮件、 Web页面等。 这些数据并不是以结构化数据的形式保存在数据库中的,而是表示为大段的文本。

文本数据库中存储最多的数据是半结构化数据,它既不是完全结构化的,也不是完全无结构的。 例如,一个电子邮件中既包括标题、 作者、 出版日期、 长度、 时间等结构化数据也包含大量非结构化数据内容,如内容文本、 摘要等。

针对这种情况,传统的信息检索技术已经不适应日益增加的大量文本数据处理的需求。针对这种需求,一些新的文本数据处理和挖掘的方法逐渐涌现并为人所熟知。 例如,Google和百度搜索引擎就是文本挖掘的典型应用。

3. 数据挖掘技术的应用

数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。 其应用非常广泛只要该产业具有有分析价值与需求的数据库,皆可进行有目的的发掘分析。 常见的应用如下:

①商家从顾客购买商品行为中发现一定的关系,提供打折购物券等,提高销售额。

②保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,降低成本,提高利润。

③在制造业中,半导体的生产和测试中都产生大量的数据,必须对这些数据进行分析找出存在的问题,提高质量。

④电子商务日新月异,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。 一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈