5.2.2 数字分类法
5.2.2.1 二态聚类分析法
聚类分析按其分类目的可分为两类:一类对样本(地层分区)分类,叫做Q型分析;另一类对变量(属、种等)分类,叫做R型分析。聚类分析的最大特点是无需事先知道分类对象的分类结构,只需要一组未知分类归属的原始资料便可进行工作。因此,在应用中不受分类对象现有研究程度的限制。在古生物地理学中常用Q型分析,而很少用R型分析。古生物地理学中的Q型聚类分析其样本就是地层分区,而变量就是古生物化石的不同属种。由于古生物化石只要表示出“有”、“无”两种状态,数学上用“1”表示有某种化石,“0”表示无此种化石。因此称为二态聚类分析(binary cluster analysis)。它的基本原理和一般聚类分析是一样的。
聚类分析首先要确定描述样本之间亲疏度的量,这些量称为分类统计量。一般有两类:一类称为类似性系数,表示样本的亲密程度(如相关系数、广义夹角余弦等),这些系数在[0,1]区间中变化,越接近于1就越密切;另一类称为差值系数,表示样本的疏远程度(如广义距离系数等),系数越小就越密切。在多元统计分析中,经常应用广义夹角余弦系数。
广义夹角余弦:设有N个样本,P个变量,则
式中:θij——第i,j个样本的夹角,0≤cosθij≤1;
xik,xjk——第i,j个样本的第k个变量。
在古生物研究方面,前人也曾使用过多种相似系数。Cheethan和Hazel (1969)总结出20多种不同的系数,其中最常用的有六种:
1.Jac系数公式见第3章3.2节。
2.DC系数
Sokal和Sneath(1963)称它为戴斯(Dice)系数,而Peter(1968)称之为伯特(Burt)系数,它的基本特征和Jac系数相仿。
3.Otc系数公式见第3章3.2节。奥卡亚(1957)称它为大塚(Otsuka)系数。Otc系数就是广义夹角余弦,因为xik,xjk只取0和1,故有
这一系数在生物相、生物地理方面的研究中被广泛应用。
4.RC系数
RC系数就是Otc的平方,Sokal称它为相关比率系数,多用于生物组合分析。
5.辛普森(Simpson)系数
这一系数与N1成反比,它强调了特征数较小的对象所占的比重。
6.简单匹配(simplematching)系数
式中:A——两个比较对象中都不存在的特征数;
P——变量个数,P= N1+ N2-C+ A。
上述系数的值都在[0,1]区间变化,越接近于1,两个样本的关系越密切;越接近于零,关系就越疏远。
通过大量的计算,在古生物地理的分类中,采用广义夹角余弦(Otc系数)相似性系数分类效果较好,且与传统分类法的结果较一致。
在实际计算时,首先算出特征矩阵和相似矩阵,然后根据相似性大小进行分类,最后作出谱系图,即聚类分析枝状图。二态聚类谱系图通常采用均值连接法。
例5.1 早泥盆世腕足动物古生物地理区系,原有10个区(样本):a, b,c,d,e,f,g,h,i,j。共选取腕足动物化石(变量)129个属种。第b区由于资料太少而被删去。c,d两区地理位置上很接近,故加以合并。最后合为8个区。对此8个区进行聚类分析。
首先计算出公有特征矩阵:
用均值连接法画出的枝状图见图5.3。
图5.3 均值连接法画的枝状图
这一分类结果把北方4个地区划为一大类,和传统的综合对比法分类结果一致。在0.28的相似水平下,将8个地区分为3个生物省:南方生物省(e,f),准噶尔兴安生物省(g,h,i,j)和华北塔里木生物省(a,c+ d),内中还有若干生态区。
5.2.2.2 数字分类法的应用
1.进行数字分类中几个值得注意的问题
(1)选取变量时并非越多越好,不宜把所有出现过的化石都作为变量参加分类,而应选取可靠的、有代表性的、相互独立的和灵敏度高的变量。
(2)在繁多的变量中,要进行筛选。若人工筛选没有把握,可用主成分分析法找出几个正交因子代替原变量进行计算,或用R型聚类分析法,结合专业知识,从各类变量中选出代表性的变量来代替原始变量参加计算。
(3)在一般聚类分析中,由于变量的度量单位不一致,或者变量间的绝对值相差悬殊,因而必须对原始数据进行标准化处理。但在二态聚类分析中这一步骤是不必要的。
2.进行聚类分析运算的注意点
(1)选好参加运算的属种单位。不应把所有化石都作为变量参加运算。要注意下列几点:①剔除原始资料或文献中不可靠、过于笼统及生物地理学上不合理的化石属种名称。②选择合适的类别,浮游类别及其他世界性分布的门类一般不宜作为对象,如某些笔石、牙形石等。运算中生物相影响明显的类别,如球接子类,亦需排除或删减,以减弱其影响。③世界性分子、中国各区或大部分区共有的分子以不参加运算为宜。在以种为单位运算时,未定种不参加运算。④对比较种或近似种是否视为与原种为同一单位(变量)的问题要具体分析。出现在与原种不同地理区的比较种、近似种以作为独立单位分出为宜。
(2)选好参加分类的地区。地区的选择亦不宜太细,对一些资料甚少而地理上又相近的地区应加以合并或删除。在计算过程中,往往发现有的地区在几十甚至几百个变量中,它仅含一两个或者一个也没有,计算的结果导致不合理现象的出现。最小区与最大区的属种数量(变量数)之比,以大于15∶100为好。
(3)数学与地质要紧密配合。筛选变量时,什么变量该取,什么变量该弃,这对地质人员和数学人员都是棘手的问题。从数学理论上讲,应该选相互独立的、有代表性的、分类灵敏度高的变量,并可通过数学手段,如R型聚类分析、因子分析以及相关分析等进行筛选。但这些概念对古生物变量的含义是什么呢?目前还未能用一个数量指标来刻画。在取舍变量时,数学人员和地质专家可能会产生矛盾,这就必须在计算过程中,通过试验以及专家之间反复商讨加以合理解决,直到取得满意的效果为止。
(4)相关性检验。对分类枝状图进行分析,发现生物省一级的生物地理区相似性系数都在0.40以下,一般在0.30以下,这表明各生物省可以看作独立的生物地理单位。从另一角度,可以将同一生物省的各地区合并为一个样本,然后对它们进行相关系数的统计检验,同样可以得出生物省之间不相关的结论。
3.聚类分析法在划分生物地理区系中的作用二态聚类分析枝状图的作用如下:
(1)这些枝状图与用传统方法进行的区系划分大致相符,起了互相验证的作用。
(2)根据这些图,初步归纳出适合于我国情况的生物大区及生物省的相似性系数值。
(3)在许多情况下,聚类分析较好地反映了同一生物省内的生态区,是划分生态区的根据之一。
(4)在少数场合,数字分类结果帮助我们修正了按传统方法所作的划分。
对古生物地理区系的数字分类尝试,虽然取得了一点成果,但尚有许多问题有待探讨,如怎样确定一个不以人的意志为转移的合理的筛选变量的数量指标;从古生物角度看,各种变量在分类计算时的地位不应该是平等的,有些变量是带标志性的,对这些变量如何提高它的地位?不同的变量应给以不同的加权系数,以标明其不同的作用,但怎样确定这些权呢?这些都是值得研究的问题。总的来说,数学方法目前的应用效果,主要是起验证作用,如何使它成为生物地理区系研究中独立的重要定量依据,尚有待今后努力。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。