在聚类分析数学模型中,很多情况下都不需要编写另外的程序加以解决,因为在统计软件SPSS和DPS中都有聚类分析的模块.SPSS和DPS是专门用于多元统计分析的软件.虽然Matlab也可以解决多元统计模型,但SPSS和DPS显得更加专业.SPSS是英文版的软件,DPS是中文版软件,但是DPS所能实现的功能并没有SPSS强大,所以SPSS受到国内外的广泛应用.而且相比Matlab而言,这两种软件只需要简单的操作,并不需要编程,这给问题的解决带来了方便.尤其针对大数据问题,这给问题的建立与解决带来了极大的便利.下面通过几个例子来介绍利用SPSS解决聚类分析的过程.在介绍中侧重如何使用软件解决问题,而省略了若干模型建立的过程.SPSS软件能够完成聚类模型中的系统聚类模型与快速聚类模型.在下面的例子中,将分别介绍这两种方法的实现方式,希望大家能够学会举一反三.
例7-1 蠓虫的分类——MCM1989
两种蠓Af和Apf已由生物学家W.L.Grogna和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分,现给出9只Af蠓和6只Apf蠓的数据表(如表7-2),根据给出的触角长度和翼长识别出一只标本是Af还是Apf是重要的.给定一只Af族或Apf族的蠓,你如何正确的区分它属于哪一族?将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)的三个标本.设Af是传粉益虫,Afp是某种疾病的载体,是否应该修改你的分类方法,若需修改,如何改?
【解题思路】
首先由图7-1可得到学习样本的具体数据如表7-2所示.
表7-2 蠓虫翼长数据
考虑“蠓虫的分类”,对原来的15个学习样本进行重新分类,利用系统聚类分析的方法,把原来15个样本按样本的“接近程度”分成5类,下面将介绍SPSS软件如何实现这个问题.首先打开SPSS软件,建立数据文件,如图7-2所示.触角长和翼长分别用x1和x2表示.
图7-1 蠓虫翼长坐标图
图7-2 SPSS数据表
从“Analyze”菜单->“Classify”->“Hierarchical Cluster”项,弹出Hierarchical Cluster对话框.从对话框左侧的变量列表中选择x1,x2,点击向右的箭头按钮使之进入Variable框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Cases,如图7-3所示.点击“Statistics”按钮,弹出Hierarchical Cluster Analysis:Statistics对话框,选择Proximty matrix,要求显示欧式不相似系数平方矩阵,如图7-4所示.点击“Continue”按钮返回Hierarchical Cluster Analysis对话框.本例要求系统输出聚类结果的树状关系图,故点击“Plots”按钮弹出Hierachical Cluster Analysis:Plot对话框,选择Dendrogram项,如图7-5所示.点击“Continue”按钮返回Hierarchical Cluster Analysis对话框.
图7-3 聚类变量选择
图7-4 统计方法选择
点击“Method”按钮弹出Hierarchical Cluster Analysis:Method对话框,系统提供了7种聚类方法供用户选择,本例选择Within-groups linkage.选择距离测量技术时,系统提供了8中形式供用户选择,本例选择Minkowski如图7-6所示.点击“Continue”按钮返回Hierarchical Cluster Analysis对话框,再点击“OK”按钮即完成分析.
图7-5 坐标选择
图7-6 方法选择
在运行SPSS后,可以得到以下结果.表7-3、表7-4、表7-5显示共有15例样本进入聚类分析,采用绝对幂测量技术.先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的,然后显示合并进程.
表7-3 处理数据的基本信息
表7-4 不相似矩阵
This is a dissimilarity matrix.
表7-5 聚类的凝聚过程
从图7-7中可以发现蠓虫可以分为5类,它们分别为{1,3,6,2},{7,8,4,5},{9},{10},{13,14,15,11,12}.而标号为9的蠓虫最为特别,从数据中也可以看出.
如果分别把每个新样本加入,用16个数据进行聚类,分别可以得到3张聚类图.加入样本(1.24,1.80)属于Apf族,得到聚类谱系如图7-8所示,加入样本(1.28,1.84)属于Apf族,得到聚类谱系如图7-9所示.而样本(1.40,2.04)比较独立,不能判定,得到聚类谱系如图7-10所示.
图7-7 聚类谱系
图7-8 聚类谱系
图7-9 聚类谱系
图7-10 聚类谱系
例7-2 奥运会临时超市网点设计——CUMCM2004
奥运会期间,在比赛主场馆的周边地区需要建设由小型商亭构建的临时商业网点,称为迷你超市(记做MS)网,以满足观众、游客、工作人员等在奥运会期间的购物需求.在比赛主场馆周边地区设置的这种MS,在地点、大小类型和总量方面有三个基本要求:满足奥运会期间的购物需求、分布基本均衡和商业上赢利.
对图7-11标有A1~A10、B1~B6、C1~C4的区域是规定的设计MS网点的20个商区.通过对观众的问卷调查已经采集了相关数据.
请对图的20个商区设计MS网点.
图7-11 建模结构
【解题思路】
对该问题的完整解决需要多种手段,这里我们只是介绍利用聚类分析的方法对题目所给的批量数据进行处理和分类的部分,应该说多元统计分析方法的使用是解决问题的一个重要环节.
奥运会临时超市网点设计是一个离散优化设计问题,问题解决的关键是对问卷调查已经采集了的相关数据进行处理(数据量相当大,见原题附件).首先对所给数据用统计学方法进行处理,得出观众在出行、用餐和购物等方面的规律,提出了消费人流量和消费额的概念并提炼得到了相关数据,在分析(检验)了消费人流量和消费额的相关性以后,认为两者是相关的.然后对商区消费额进行聚类,把商区按消费额分成四类,再用人流量的指标对分类结果进行适当调整,最后利用整数规划模型得到了20个商区内MS网点分布的具体方案.
从采集到的相关数据,最后提炼得到的20个商区日消费额,如表7-6所示.
表7-6 消费数据统计
利用这组数据进行聚类,得到MS最优分四类,在每类中各个商业区中超市的分布是相似的,从分类图中可得具体的分类结果,如表7-7所示.系统聚类谱系如图7-12所示.
表7-7 系统聚类结果
图7-12 聚类谱系图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。