聚类被广泛应用在大数据分析的初始阶段,尤其是探索性数据分析,把相似数据组成簇,进而把大数据分割成小的数据集合[186]。聚类方法评估时,尤其在处理大量数据的情况下,不同的评估方法往往会生成不一致甚至矛盾的排序,评价结果甚至可能产生很大的差距[11]。同时,由于决策参与者的专业知识、经验背景及个人偏好的影响,作出精确和有效的决策是十分困难的[72]。本节的目标是通过结合专家智慧,提出一个共识支持模型,以融合聚类方法评估时产生的不一致甚至矛盾的结果。本书提出的共识支持模型包含三个阶段,分别是数据挖掘阶段、多目标决策阶段和二次挖掘阶段。该聚类方法评估的具体评估流程如图6-1所示,详细过程介绍如下:
图6-1 聚类方法评估流程图
第一阶段,即数据挖掘阶段,为了便于说明和理解,采用6个最具影响力的、最经典的聚类方法,包括:Expectation Maximization(EM),Farthest-First algorithm(FF),Filtered Clustererer(FC),Hierarchical Clustering(HC),Make Density Based Clusterer(MD)和K-Means Clustering(KM)被用来建模,数据来自20个UCI数据集,拥有18310条实例和313个属性维度,数据挖掘阶段在WEKA 3.7中实施完成。
第二阶段,即多目标决策阶段,4个经典的多目标决策方法——TOPSIS,GRA,WSM和PROMETHEEⅡ被用来分析20个UCI数据集,以提供初始的聚类评估绩效排序,评估指标为数据挖掘阶段产生的9个外部度量指标。此外,每一个多目标决策方法被平均分配5个UCI数据集。不只一个多目标决策方法被用来评估聚类方法的绩效问题是十分有意义的,因为由多个多目标决策方法获得的排序结果更为客观、更可靠和更具说服力。书中所采用的多目标决策方法均在MATLAB 7.0中实施。
最后,在第三阶段,也就是二次挖掘阶段,通过结合领域知识、专家经验、多目标决策和数据挖掘技术,基于二八定律,通过考虑所有决策参与者的整体满意度,提出一个针对聚类方法评估二次挖掘的共识融合模型,以融合聚类方法评估绩效的不一致问题。同时,该模型能够生成一个方法优先级列表来识别最佳的聚类方法。基于二八定律的共识融合模型的详细步骤如下:
步骤1:标记两个位置集合:一个高位置集合和一个低位置集合。
众所周知,二八定律指出,在大多数情况下,80%的成果源自于20%的行为[187]。该规则通常记为Vilfredo Pareto[64,187]。二八定律认为,在大多数国家,财富的80%由20%的人掌握[188]。其含义是,人们总是向往成为20%的那群人而不是80%。因此,二八定律可以适用于集中分析可预见的不平衡中最可能的排序位置。二八定律指出,产生了80%成果的那20%的人具有高杠杆性。
在本书中,基于源自20%的人的专家智慧,排序的集合被分为两部分,其中,方案的前20%被指定为高位置集合,其代表了在方法评估过程中,所有参与者心中最令人满意的排名。同理,方案的后20%被指定为低位置集合,其代表了在方法评估过程中,所有参与者心中最令人不满意的排名。因此,最令人满意的高位置集合的元素能够被计算:
其中,n是备选方案中的所有数目。为便于理解,假设n=7,那么x=7/5=1.4,因此,第2个位置分割了排序,其中第1和第2就是在高位置集合中的备选方案。这两个方案被认为是最好的、最令人满意的方案。同理,最令人不满意的低位置集合的元素也能够被计算:
其中,n是备选方案中的所有数目。为便于理解,假设n=7,那么因此,第6个位置分割了排序,其中第6和第7就是在低位置集合中的备选方案。这两个方案被认为是最差的、最令人不满意的方案。
步骤2:对两个位置集合中的位置打分。在高位置集合和低位置集合中的方案对应的位置被分配一个分数。
高位置集合中的分数被分配如下:在高位置集合中,假定有x个方案,第1位得x分,第2位得x-1分,…,直到最后1位得1分。然后,在高位置集合中的方案得分加总,标记为b。
同理,低位置集合中的分数被分配如下:在低位置集合中,假定有x个方案,最后的位置得x分,第二后的位置得x-1分,…,直到最开始的位置得1分。然后,在低位置集合中的方案得分加总,标记为d。
步骤3:生成每一个备选方案的优先级,并排序。
每个方案的优先级fi按如下公式计算:
其中,fi值代表方案在高位置集合中所得分数与其在低位置集合中所得分数之差,即在该评估方案中,最令人满意的分值减去最令人不满意的分值,从而综合反映了该方案的整体满意度。因此,方案的优先级fi值越大,表明该方案就越好。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。