16.5.1 数据挖掘的方法
目前常用的数据挖掘方法很多,在这里,简单介绍下面三类常用算法。
1)关联分析(association)
世界上各事物之间存在着必然的内在关联,通过大量观察,寻找它们之间的这种关系是一种较为普遍的归纳方法,在数据挖掘中则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。对相关性可以设置可信度,可信度以百分数表示,表示相关性的概率,如在前面的尿布、啤酒例子即是关联分析的一个例子,它表示顾客购买商品的某种规律,即属性尿布与啤酒间存在着购买上的关联性。
2)分类分析(classifier)
对一组数据以及一组标记可以对数据作分类,分类的办法是对每个数据打印一个标记,然后按标记对数据分类,并指出其特征。如信用卡公司对持卡人的信誉度标记按:优、良、一般及差4档分类,这样,持卡人就分成为4种类型。而分类分析则是对每类数据找出固有的特征与规律,如可以对信誉度为优的持卡人寻出其固有规律如下:
信誉度为优的持卡人一般为年收入在10万元以上,年龄在45~55岁之间并居住在莲花小区与翠微山庄的人。
分类分析法是一种特征归纳的方法,它将数据所共有的特性抽取以获得规律性的规则,目前有很多分析类型,它们大都基于线性回归分析、人工神经网络、决策树以及规则模型等。
3)聚类分析(clustering)
聚类分析方法与分类分析方法正好相反,聚类分析是将一组未打印标记的数据,按一定规则合理划分数据,将数据划分成几类,并以明确的形式表示出来,如可以将某学校学生按学生成绩、学生表现以及文体活动情况分成为优等生、中等生及差等生三类。聚类分析可依规则不同的数据分类划分。
上述三种方法在具体使用时往往可以反复交叉联合使用,这样可以取得良好的效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。