第一节 聚类分析的基本理论
一、聚类分析简述
聚类分析(Cluster Analysis)是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。它是一种多变量分析程序,其目的在于将数据分成几个相异性最大的群组,同时使得群组内部的相似程度最高。
聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
聚类分析的大部分应用都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也能用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。
聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。对案例的分类常称为Q型聚类,对变量的分类称为R型聚类。
聚类分析的一般步骤,即先计算各个体间的距离或组内误差矩阵,然后将最接近的两个个体加以合并成一类,再算出合并后的类间的距离或组内误差矩阵,重复以上计算步骤,直至所有个体合并成同一类。聚类分析与因子分析一样,倾向于艺术层次而非科学,属于探索性的分析方法,因为分类数目的选取有时会因研究者研究观点与研究目的的差异,而有所差异。不过,在聚类分析合并过程中,组内的聚类或误差会越来越大,如果某个分析合并的系数突然变得很大,研究者就可以由此判断应该分成几类。
二、聚类分析方法的选用
聚类分析方法主要有“系统聚类分析法”(hierarchical cluster analysis)和“K-Means聚类分析法”,后者又称为“动态聚类分析法”或“快速聚类法”。其中的系统聚类法是应用最广泛的一种方法。
如果观察值的个数较多或数据文件非常庞大(通常观察值在200个以上),一般采用“K-Means聚类分析法”较为适宜,因为观察值数量太多,冰柱图(icicle plots)与树状图(dendrograms)两种判别图形,在显示时会过于分散,不易于阅读与解释(吴明隆,2000)。
在本章的研究中,由于样本规模(n= 733)较大,观察值远远超过200个,并且在SPSS15.0中运用系统聚类分析法无法输出冰柱图和树状图,因此,选用了K-Means聚类分析法。该方法的优点是占用内存小、计算量小、处理速度快,特别适合大样本的聚类分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。