首页 理论教育 遗传拓扑学及主成分分析

遗传拓扑学及主成分分析

时间:2023-03-22 理论教育 版权反馈
【摘要】:而遗传距离的计算、聚类分析与系统树的绘制、主坐标分析、二维排序图的绘制及主成分分析等,正是为这一目的而进行的深入一步的分析研究。本文对中国人群间的遗传距离、聚类分析与系统树、主成分分析及主坐标分析等方面,具有代表性、所分析人群较多,或所依据指标较多的研究结果,作一综述。这8个人群可称之为北方组。其中汉族之所以归入南方组是因为为分析基因频率所取的6个汉族人群中有5个是南方人群。
遗传拓扑学及主成分分析_人类学终身成就奖获奖者风采录

从人体测量学指标开始,到血型、酶、蛋白质等遗传标记,再到DNA分子水平的差异,人们研究各个人群中这些指标的最终目的,往往是为了了解人群间的歧异程度与血缘关系、迁移、融合以及人类的进化等。而遗传距离的计算、聚类分析与系统树的绘制、主坐标分析、二维排序图的绘制及主成分分析等,正是为这一目的而进行的深入一步的分析研究。

本文对中国人群间的遗传距离、聚类分析与系统树、主成分分析及主坐标分析等方面,具有代表性、所分析人群较多,或所依据指标较多的研究结果,作一综述。最后,对中华民族的源与流、中国各民族的遗传结构特点等,作一初步分析。

一、 遗传距离与聚类分析

(一) 用红细胞血型基因频率聚类

袁义达等于1983年以Nei氏法计算了17个人群间的遗传距离,所根据的是ABO, MN, P和Rh(D)4种血型系统的基因频率。根据计算所得遗传距离用UPGMA法聚类的结果如图1所示。

17个民族中,柯尔克孜族、乌孜别克族与塔塔尔族等相聚成为独立的一支,最后才与其他民族相聚。这3个民族形成单独一支是完全可以理解的,因为他们来自中东,含有较多的白种人血缘,而且在进入中国境内二三百年来,与中国其他民族之间血统混合较少。维吾尔族与哈萨克族相聚,蒙古族与回族先相聚,然后与已相聚的汉族及华侨相聚,最后才与藏族及锡伯族相聚。这8个人群可称之为北方组。北方汉族起源于北方,与北方各民族间的基因流动也较多,而且该文所用基因频率包括相当一部分北方汉族的材料,所以汉族与北方人群相聚是可以理解的。但华侨中,尤其是亚洲的华侨中,多数是南方汉族,而在美国等地的华侨也有相当多的北方汉族,可是在该文中华侨却与北方民族相聚在一个组内,可能与该文所分析的华侨样本中北方汉族较多有关。

图1 用红细胞血型ABO,MN,P,Rh等基因频率绘制的17个民族聚类图

南方的壮族、傣族、白族、景颇族、彝族、苗族及佤族等聚为一支:在这一支中,彝族与苗族、白族与景颇族、傣族与壮族等先两两相聚,然后聚在一起,而佤族最后才与南方各族相聚。先两两相聚的民族,遗传结构应比较相近,而佤族最后才相聚,说明佤族的遗传结构在南方民族中比较特殊[1]

(二) 用HLA的基因频率聚类

(1) 我国用HLA的基因频率计算人群间的遗传距离最早是在1984年,赵嗣茂等用HLA A,B两个座位的基因频率计算了我国11个民族和国外6个人群的遗传距离,然后进行聚类。结果如图2所示。

和上述用红细胞血型基因频率进行聚类的结果(见图1)相似,蒙古人种人群中,分两组,一组是北方人群,另一组是南方人群。但南方人群组中除壮族、侗族、瑶族等真正南方人群外,也包括了汉族、藏族和彝族。其中汉族之所以归入南方组是因为为分析基因频率所取的6个汉族人群中有5个是南方人群。藏族也有可能有基因频率来源的问题,因为此红细胞血型是在西藏拉萨调查的,而HLA则是我国西南地区调查的。彝族是最后才与南方组相聚的,说明彝族是南北类型混合人群,但目前南方蒙古人种血缘已占主要地位。

图2 17个群体的系统树(根据HLA基因频率绘制)

白种人3个人群遗传距离很近,聚在一起,两个黑种人人群也距离相当近,聚在一起。然后黑种人与白种人相聚,最后才与蒙古人种这一支相聚。维吾尔族虽有部分白种人血缘,却明确地与蒙古族、哈萨克族、回族等北方民族相聚[2]

(2) 1993年徐星培等发表了用HLA,A,B,C,D,DQ等抗原的血清学分型得出的基因频率,对中国10个民族和外国9个蒙古人种人群、34个高加索人种人群、1个非洲黑种人人群(英国的黑种人)进行了聚类分析(见图3)。结果表明,18个蒙古人种人群单独相聚,而且又分为两个组,即南方蒙古人种组与北方蒙古人种组。南方蒙古人种组包括泰国华人、越南人、苗族、傣族、布依族、中国南方汉族与新加坡华人。北方蒙古人种组包括乌拉尔人、内蒙古蒙古族、哈萨克斯坦人、布里亚特蒙古人、蒙古人、满族、中国北方汉族、回族、藏族、日本瓦金人与朝鲜人。此外我国的维吾尔族在系统树上没有与蒙古人种各人群先聚类,而是作为最后一个勉强聚到高加索人种、非洲黑人人群这一大组去了[3]。这说明维吾尔族确有高加索人血缘,但维吾尔族的血缘是以高加索人种为主还是以蒙古人种为主,还不能从这里就得出结论,需要看更多遗传标记的基因频率进行聚类的结果。前面所述用红细胞血型基因频率聚类和赵桐茂等用HLA基因频率聚类的结果,都表明维吾尔族很容易地与北方蒙古人种人群聚类。

图3 中国10个民族与外国蒙古人种、高加索人种、黑种人等聚类的系统树(根据HLA基因频率绘制)

(三) 用免疫球蛋白同种异型Gm因子的频率聚类

赵桐茂等曾对我国40个人群的免疫球蛋白同种异型Gm因子进行分型,然后根据常见的5种单倍型(Gmaxg,afb,ag,a及fb)计算40个人群的遗传距离,并按Snearh和Sokal的UPGMA法进行了聚类(见图4)。

维吾尔族、哈萨克族及北方回族有高加索人种持有的Gmfb单倍型,其频率高低顺序为维吾尔族、哈萨克族、回族。在聚类时,维吾尔族与哈萨克族单独聚为一支,而在遗传距离上,他们与北方人群的遗传距离要比与南方人群的近。

南方的壮族、侗族、白族等及长江以南的11个汉族人群聚在一起,成为南方组。

北方的朝鲜族、藏族、鄂伦春族、回族、蒙古族等族和北方的9个汉族人群聚在一起;可是长江岸旁的7个城市的汉族人群,即安徽的合肥、芜湖、江苏的南通、如皋、上海、太仓与浙江萧山,也与北方组聚在一起。

作者特别指出:① 南北汉族之间之差异远大于汉族与邻近少数民族之间的差异;② 维吾尔族、哈萨克族、回族等有高加索人种特有的Gmfb单倍体型,同时也具有相当高频率的Gmfb和Gma单倍型,“说明他们的人种底子还是蒙古人种,只混杂了有限的高加索人种血缘”[4]

(四) 用人体测量学数据聚类

(1) 张振标调查了我国16个省、市、自治区的汉族人群与11个少数民族,又收集了文献中14个少数民族的数据,对他们的人体特征与人体测量学指标进行了聚类分析。

在人体特征方面,他发现无论汉族与少数民族,南部地区的无蒙古褶的比例较多,眼裂方向多数水平,鼻尖和鼻基底方向大多数上翘,鼻翼发育较明显,鼻梁较低凹,红唇较厚。

图4 中国40个群体的系统树(根据Gm单倍型频率绘制)

在11项身体测量性特征方面,中国人头面部的基本形态是头短而宽(短头型),面形多为中面型,鼻形多为狭鼻型。人群间身高变化较大,就总的平均值而言,属中等型。而且,不同地区的汉族与少数民族的体质特征,地理变化较明显。从北到南基本情况是:短头型的比例逐渐减少,中头型的比例逐渐增多;狭面型的比例逐渐减少,中面型的比例逐渐增多,至西南地区的少数民族,基本上以阔面型为多数;狭鼻型逐渐减少,中鼻型逐渐增多。身高由北往南逐渐降低。

作者根据11项测量项目的平均值计算了41个男性人群两两之间的距离系数dik,然后进行聚类。11项测量项目是头长、头宽、额最小宽、面宽、下额角间宽、容貌面高、形态面高、鼻高、鼻宽、口裂宽、身高。聚类结果如图5所示。

41个男性人群分为两大组,第一组包括北方汉族与北方少数民族,即黑龙江、吉林、辽宁、陕西、河北、山东、北京、湖北、江苏的9个汉族人群和朝鲜族、回族、蒙古族、维吾尔族、达斡尔族、赫哲族、哈萨克族、鄂温克族、鄂伦春族、锡伯族、藏族等11个少数民族人群。第二组包括南方汉族与南方少数民族,即四川、云南、贵州、湖南、福建、广西、广东等7个汉族人群和彝族、白族、羌族、哈尼族、基诺族、土家族、苗族、瑶族、布依族、壮族、傣族、黎族、布朗族、高山族等14个少数民族人群[5]

(2) 黎彦才等人以体质测量的9项指标,对我国29个少数民族的33个人群进行了聚类分析。所用的9项指标是头长、头宽、额最小宽、面宽、下额角间宽、鼻宽、形态面高、容貌面高及口裂宽。所计算的人群间距离为欧氏距离。

聚类结果如图6所示。作者根据这一结果,认为33个人群聚类成为3组,即朝鲜族、赫哲族、鄂温克族、鄂伦春族、达斡尔族、柯尔克孜族、锡伯族、塔吉克族、裕固族等为第一组,彝族、白族、傣族、景颇族、傈僳族、苗族、侗族、壮族、土家族、黎族等为第二组,而藏族、保安族、羌族、纳西族、维吾尔族等为第三组。其实,该文作者还遗漏了一组,即哈尼族、布朗族、基诺族、瑶族也应是一组,而且,塔吉克族与裕固族不能归入第一组。

作者特别强调第三组代表的是与中国人南、北两大类型并立的第三大类型,作者称之为“藏彝走廊类型”。而且认为维吾尔族也与藏彝走廊各族聚在一起,似可反映出维吾尔族有古羌人的血缘成分[6]

(3) 郑连斌等用13项体质测量指标对我国23个人群进行了聚类分析与主成分分析。13项指标是头长、头宽、额最小宽、面宽、形态面高、鼻宽、鼻高、口裂宽、两眼内宽、身高、坐高、肩宽、骨盆宽。其中与张振标所用指标不同的是增加了坐高、肩宽、骨盆宽及两眼内宽,减少了容貌面高与下额角间宽。对欧氏距离系数用最短距离法进行了聚类分析。

图5 41个男性组聚类分析所得树状图(根据人体测量11项指标绘制)

图6 中国33个少数民族(部族)男性9项指标聚类图

男、女人群聚类分析后基本一致,都分为4组,但略有差异。第一组主要包括东乡族、保安族、纳西族3族,但女性组还包括阿昌族及海南回族。第二组主要包括侗族、水族、苗族、仡佬族等族,但男性组还包括阿昌族与海南回族,黎族、彝族和北方的塔吉克族则最后与南方组相聚;女性组则包括彝族,北方的达斡尔族最后也与南方组相聚。第三组在男性组中包括哈萨克族与新疆伊犁州及巴音郭勒蒙古族自治州的蒙古族,撒拉族、达斡尔族两族也先后与上述3人群相聚。女性第三组也包括哈萨克族与新疆蒙古族的两个人群,但还有锡伯族与柯尔克孜族,塔吉克族则在第一、二、三组聚后与其相聚。男、女第四组都包括宁夏回族、内蒙古蒙古族及赫哲族,在女性组中,黎族也与这一组相聚,撒拉族与德昂族则最后与其他民族相聚,而在男性组中德昂族和柯尔克孜族先后最后与其他民族相聚(见图7、图8)。

图7 聚类图(男性,根据13项人体测量指标)

图8 聚类图(女性,根据13项人体测量指标)

从以上结果可以看出,柯尔克孜、塔吉克等族,尤其德昂族,与其他民族相比总显示出一定的特殊性。侗族与水族、苗族与仡佬族、哈萨克族与新疆伊犁及巴音郭楞州的蒙古族、宁夏回族与内蒙古蒙古族及赫哲族,分别都十分相近。但阿昌族、黎族、彝族、撒拉族等族的聚类行为在男、女聚类图中有不同,变化较大。

郑连斌等认为,他们的研究证实了黎彦才等提出的中国人除南、北两大类型之外还存在第三大类型,即“藏彝走廊类型”,它包括从甘肃南部到云南西部、南部的藏缅语族的各少数民族[7]。对于黎彦才等与郑连斌等关于中国人有“藏彝走廊类型”这一第三类型的见解,本文作者在后面将提出自己的见解。

(4) 刘武与铃木基治用头长、头宽、面宽、下额角间宽、鼻宽、身高等6项身体测量指标,对亚洲地区25个人群进行了欧氏距离系数的计算,并进行了聚类分析与主成分分析,即把中国6个人群与亚洲的19个人群放在一起进行分析。

结果表明,中国6个人群中,台湾的泰雅人与阿美人与南亚人群聚在一起,而中国东北、华南、华北等地汉族及西藏藏族都与东北亚的日本、朝鲜聚在一起(见图9)。作者本来以为中国华南汉族可能与东南亚或南亚的人群聚在一起,但结果却没有。作者指出:“仅仅根据活体测量资料的分析还不能提供华南人类在整个东亚地区人类群体分类地位这一问题的准确答案”[8]

图9 亚洲地区25个人群活体测量数据聚类分析树状图

(五) 用肤纹学指标聚类

张海国等用指掌纹的11项参数,先后对我国17个汉族人群和52个民族的122个人群进行了McQuittys Similarity聚类分析。11项参数是手指脊纹总数(TFRC),a— b脊纹数(a— bRC)、指纹类型(弓、尺箕、桡箕、斗)的频率、手大鱼际纹(T)、指间区纹(Ⅱ,Ⅲ,Ⅳ)和手小鱼际纹(H)。

对17个汉族人群聚类用的是方开泰、黄秉宪等人的方法。结果是遵义、台州、泸州、孝感、台湾、北京、上海、苏州等人群首先聚在一起,他们都是长江以南或在长江畔的人群,所以被称为南方人群。其中北京人口来自全国各地,仅1950—1980年,即迁入了540万人,可能因此也归入南方群。然后承德、伊宁、洛阳、延吉、兰州、锦州、西安、榆林等北方人群,又陆续与南方人群相聚。这一结果基本上将我国汉族的17个人群分为南、北两大群,但地方各人群没有明确地自己聚为一大群(见图10)[9]

图10 17个汉族人群活体测量数据聚类分析树状图

对52个民族122个人群的聚类结果如图11所示。从图中可以看出,新疆的塔吉克族、乌孜别克族、维吾尔族、柯尔克孜族、哈萨克族等5个民族自成一支,他们均融有一定成分的高加索人种血缘。而俄罗斯族则更为特殊,他们最后与所有其他民族聚合。俄罗斯族属高加索人种,如果取样时严格,剔除已融有非俄罗斯民族血缘的个体,则这一结果是完全可以理解的。这6个民族的共同特点是斗显著少于箕的比例,而且指间区纹Ⅲ真实花纹的频率均在20%以上。自第1~38号共38个人群归为一大组,都是在南方取样的南方民族,可称为南方组,只有蒙古族(第36号)原来是北方的民族,但该人群的样本多数也取自南方,他们已融有较多的南方蒙古人种的血缘,因此也归入了南方组。

图11 中国52个民族122个群体的系统树(民族后面—1、—2等表示

该民族第1、第2等不同人群、*表示系由该民族不同人群合并的人群)

由第96~116号共21人群聚合而成的一大组,基本上都是北方的民族,并取样于北方,因此可称为北方组,但也有在四川取样的彝族、羌族、藏族等民族。藏族由于其他民族隔离较严格,所以在各类体质指标分析中,一般均表现为属北方蒙古人种,但四川的藏族也可能比西藏藏族融有较多其他民族的血缘,而彝族、羌族则在多数情况下表现为南方蒙古人种,但由于他们起源于北方,所以在以不同指标聚类时往往也表现出在南、北蒙古人种间摇摆不定的特点。

第39~61号共23个人群先后与南方组相聚,原作者称之为“南北混合群”。第62~95号共34个人群则独自聚合为一个大组,然后与北方组相聚,原作者称之为“南方混合群”。这两个大组大多数都是南方民族并取样于南方,但其中也混有一些起源和取样都来自北方的人群,如南北混合群中有内蒙古的蒙古族、朝鲜族混合人群、宁夏的回族、黑龙江的赫哲族、陕西的汉族、辽宁的朝鲜族等人群。而南方混合群中西藏的珞巴族、四川的藏族和甘肃的藏族按预期也许应该先与北方的人群相聚,却都先与南方的人群相聚了[10]

总的看来,用肤纹学指标对于人群进行聚类分析的结果虽然也仍可认出新疆融有高加索人种的人群组、南方人群组及北方人群组,可是都有一些人群本该与北方人群相聚却与南方人群相聚。肤纹学指标与人体测量学指标相似,聚类分析结果虽然基本上也算可以,但不是很理想。

(六) 用卫星DNA的基因频率聚类

褚嘉佑等用卫星DNA指标研究了28个中国人群。其中对云南汉族、广东汉族、满族、景颇族、德昂族、泰雅人和排湾人等8个人群,分析了30个指标,对其余20个人群,则只分析了15个指标。

然后将这些人群和世界上其他11个人群一起进行遗传距离Dc的计算,再用邻接法(neighbor joining)进行聚类,结果如图12所示。

图12 分别依据30个微卫星DNA标记(A)与15个微卫星DNA标记(B)用邻接法构建的系统树

在图12A中,台湾的泰雅人、雅美人、排湾人、阿美人与云南的德昂族、景颇族等族聚成一支,应称中国南方人群组;而美国华人、朝鲜族、日本人、满族、云南汉族等族聚成一支,作者称之为北方人群组;但严格说来云南汉族一般往往与中国南方人群相聚,则与被取样个体是否在南方已久住有关;美国华人也是一个混杂人群,多数可能来自中国南方。这两支人群聚在一起后,首先是布里亚特蒙古人、雅库特人与之相聚,然后依次是柬埔寨人,Kaitraina和玛雅澳大利亚土著与巴布亚新几内亚人,般若夏基人、意大利人、巴斯克人,与CEPH(欧洲人类多态性研究中心)等白种人群体与之相聚。最后是俾格米(刚果民主共和国)、俾格米(中非)及Lissongo等黑人群体。总的看来,聚类的情况是比较合乎人类学、语言学等研究结果的。但作者提到,柬埔寨人、Kaitraina、Lissongo人是Bowcock等人用完全不同的一套标记所研究的。

在仅用15个指标研究的30个人群进行聚类时,中国人群的南、北之分不如图12A中的明显。一共可以大致区别出3个南方人群组与两个北方人群组。在第一组南方人群中,云南的拉祜族、傣族、布朗族、爱尼族(哈尼族支系)等先相聚,然后与德昂族相聚,再与已相聚的台湾少数民族中的排湾人、雅美人、泰雅人等相聚,最后又与已相聚的台湾阿美人及美国华人相聚,成为第一组南方人群(这一次美国华人聚到南方人群组中去了,而在图12A中,他们却是聚到北方人群组中去的)。柬埔寨人、黎族、侗族、河南汉族、金秀瑶族、畲族、讲布努语的瑶族组成了第二组南方人群,其中河南汉族不应算南方人群,却与南方人群聚在一起了。第三组南方人群只包括景颇族与佤族,这一组是在上两组南方人群与由鄂温克族、回族、藏族、土家族等组成的北方人群组聚合之后才与3个组聚成的大组相聚的。在上述北方人群中,土家族严格说来不算北方人群。也不像原作者在文中说的住在中国西部,而是住在中国中南部(湖南)。住在中国西部的是土族,不是土家族。还有一个北方人群组包括日本人、华北汉族、满族、朝鲜族、云南汉族、布里亚特人、雅库特人及维吾尔族,其中除了云南汉族外,其余都是真正的北方蒙古人种的人群[11]

总的看来,用15个卫星DNA的基因频率进行中国人群聚类时,结果并不很理想。但大部分遗传结构相近的人群仍能相聚在一起。用30个卫星DNA的基因频率进行聚类时,结果比较合理,但云南汉族和美国华人与北方人群相聚,似乎不合理。

原作者在文中说:“本研究暗示东亚的南方人群可能来自东南亚的人群,而东南亚人群最初是从非洲(可能是通过中亚)迁移过来的,同时北方人群则受更北方的讲阿尔泰语的人群强烈影响。”“讲阿尔泰语的人群可能从中亚直接到达那里,或者也可能是来自东亚。”[11]所以可以认为,该研究并没有为东亚包括北方人群起源于东南亚人群以及讲阿尔泰语的人群也可能是来自东亚提出什么证据。

(七) 用38个基因座的基因频率

杜若甫等用38个基因座的基因频率对我国30个省、市、自治区的汉族人群和37个少数民族进行了两两遗传距离(Fst)的计算与聚类分析(用UPGMA及邻接法两种方法)。38个基因座包括红细胞血型HLA、红细胞酶、血清蛋白质、血型分泌物、耵聍类型及苯硫脲味盲等。分析计算工作是在美国斯坦福大学L.L.Cavalli-Sforza教授实验室中用Philip软件进行的[12,13]

1) 汉族人群的聚类分析

用UPGMA法聚类的系统树明显地显示出汉族分为南北两大群。北方群包括长江以北的省、市、自治区及地跨长江两岸的安徽、江苏两省。南方群分两支,一支是广东、广西、海南、福建、台湾,可称之为典型南方人群;另一支包括浙江、江西、湖南、贵州等长江以南其他省和地跨长江两岸的湖北、四川、云南3省(见图13)[12]

图13 30个省、市、自治区汉族人群的聚类图

在用邻接法聚类而成的系统树上也明显地可以看到,全国汉族分南、北两大支,图中台湾以上,都是长江以南的省、自治区,它们是浙江、海南、云南、福建、广东、江西、湖北、四川、湖南、贵州、广西,而新疆以下除上海、江苏、安徽以外都是北方的省、市、自治区:天津、陕西、河北、吉林、山西、黑龙江、青海、山东、河南、辽宁、内蒙古、甘肃、北京、宁夏。江苏与安徽分别包括了对苏北与淮北的调查结果,因此虽然与北方其他人群相距较远,但仍与北方人群聚到一起了。上海汉族来自四面八方,比较杂,这可能是上海汉族与北方人群聚到一起的原因(见图14)。

图14 汉族30个人群的聚类图

从图14中还可看出,南方人群间分得比较开,即每一枝权均较长,枝权长表示彼此间遗传差异大。而在北方人群中,一些真正完全是北方人的人群都紧密地聚到了一起,只有安徽、江苏、上海、新疆汉族人群才离得较远[13]

2) 少数民族的聚类分析

根据37个少数民族互相间遗传距离(用UPGMA法)绘制的系统树也明显地表明,少数民族可以分为南北两大群:长江以南的民族为一群,长江以北的民族为另一群(见图15)[12]

在南方群中,傣族、壮族、京族、侗族、黎族、瑶族等典型南方蒙古人种民族紧密地聚在一起。彝族相当一部分分布在长江以北,而且本来起源于北方,却也归属南方群。同时,语言属彝语支的傈僳族、纳西族、哈尼族等族都在南方群,此外布依族、畲族、苗族、景颇族、土家族、阿昌族、白族等族也都在南方群。佤族、德昂族、高山族等族是比较特殊的南方蒙古人种民族,都在南方群中,而且佤族、高山族两族是最后与南方群各族相聚的。

图15 我国37个少数民族的聚类图

在北方群中,新疆的4个民族,即哈萨克族、塔吉克族、维吾尔族、柯尔克孜族,紧密地聚在一起,并最后与其他北方民族相聚。藏族在青海、四川等地也有一部分,但大部分在西藏,却明确地属于北方群。羌族起源于西北地区,现在在四川北部,属北方群。此外,鄂温克族、鄂伦春族、达斡尔族、满族、赫哲族、锡伯族、蒙古族、回族、东乡族、保安族、朝鲜族等一直居住在北方的民族,无一例外,都明显地归在北方群。

邻接法绘出的聚类图上,全国37个少数民族明确地分为两支,右边一支是17个北方民族,左边一支是20个南方少数民族(见图16)[13]

图16 37个少数民族的聚类图

在17个北方民族中,4个新疆少数民族(维吾尔族、哈萨克族、塔吉克族、柯尔克孜族)单独成为一支,在最右边,彼此间遗传距离不太大(在图中以平行线的长度表示),最后与其他民族相聚。有点令人奇怪的是300多年前从东北迁到新疆的锡伯族,居然也和早在新疆的柯尔克孜族、塔吉克族、维吾尔族、哈萨克族等族聚在一起了。但在用UPGMA法聚类时,锡伯族却与赫哲族先相聚,然后与我国东北的一些民族聚在一起,这似乎更为合理。图16中东北的一些民族除鄂伦春族外,彼此十分靠近。但在用UPGMA法聚类时,鄂伦春族却与鄂温克族先相聚,然后与北方的一其他民族相聚,这也更为合理。藏族属北方民族,但历史上却融入了少量中亚人、波斯人、阿拉伯人的血缘。羌族也属北方民族。全国回族实际上并无统一起源,本文所用数据虽然也有一部分是海南岛回族的数据,但主要是宁夏等地北方回族的数据,所以回族仍归北方民族。

在20个南方民族中,佤族、傈僳族、德昂族、高山族、傣族等南方民族聚在一起。彝族、纳西族、哈尼族、白族、阿昌族、景颇族、土家族等族仍与北方民族比较靠近,说明这些民族或由于起源于北方,或历史上原来已融入相当多的北方蒙古人种血缘,但目前却以南方蒙古人种血缘为主了。傈僳族本来应与上述一些民族中的彝语系统民族比较靠近,但却与傣族、德昂族等更近,这可能也因傈僳族有基因频率的基因座数(10个)较少,因而结果有些不太可靠。壮族、京族,黎族等成为一群,说明他们的遗传结构相近。瑶族、侗族、苗族,畲族、布依族等也陆续归入这一群。佤族、德昂族与高山族等在南方民族中离其他族较远。佤族、德昂族和布朗族的语言属南亚语系孟—高棉语族,他们是云南最早的原住民,与其他民族差异必然较大。台湾少数民族实际上有9个人群,即泰雅人、雅美人、阿美人、赛夏人、布农人、邹人、卑南人、鲁凯人与排湾人。在该文中,仍按目前习惯统称为高山族,把这9个人群的基因频率数据合在一起作为高山族的数据进行分析,结果表明,他们与我国其他少数民族差异较大。高山族是最后才与南方其他民族相聚的。

3) 汉族与少数民族一起聚类

杜若甫等又将基因频率数据较多的10个汉族人群与14个少数民族放在一起进行遗传距离计算(见表1),结果表明:

表1 汉族人群及少数民族相互间的平均遗传距离

(1) 北方汉族人群间的平均遗传距离(55.6)最近,其次是南方汉族人群之间的平均遗传距离(116.0),这说明各地汉族间确有相当一部分的共同血缘。

(2) 北方少数民族间的平均遗传距离(289.9)要比南方少数民族间的(250.0)略大一些,这是因为北方少数民族中包含了新疆的民族。而北方汉族人群与北方少数民族间的平均遗传距离(244.7)则比南方汉族人群与南方少数民族之间的(304.1)近。

(3) 北方汉族人群与南方汉族人群之间的平均遗传距离(517.4),要比南方汉族人群间的(116.0)或北方汉族人群间的(55.6)都大得多。同样,南、北方少数民族间的平均遗传距离(589.9),也要比南方少数民族间的(250. 0)或北方少数民族间的(289.9)大得多。

(4) 非常有意义的是:北方汉族与北方少数民族的平均距离(244.7)和北方少数民族间的差不多(289.9);南方汉族和南方少数民族间的平均遗传距离(304.1)也和南方少数民族间(250.0)比较接近;可是南、北方汉族间的平均遗传距离(517.0)和南、北方少数民族间的平均遗传距离(598.9)却大得多。这充分说明,无论在南方还是北方,汉族与当地少数民族间都已有了许多基因流动,他们的遗传结构已相互接近了。

(5) 最大的是南方汉族与北方少数民族以及北方汉族与南方少数民族间的平均遗传距离(653.1),因为这遗传距离同时包含了南、北两大人群间的差异以及汉族与少数民族间的差异[12]

根据遗传距离,用邻接法聚类绘出系统树(见图17)表明:

(1) 全部24个人群明显地分为南、北两大群。北方群包括甘肃、黑龙江、吉林、内蒙古、陕西的汉族人群以及蒙古族、回族、满族、朝鲜族、藏族、鄂伦春族、维吾尔族等7个少数民族。南方群包括广东、广西、贵州、湖南、四川的汉族人群以及壮族、瑶族、苗族、侗族、黎族、彝族、土家族等7个少数民族。

(2) 在南、北两大群中,往往是地理相近的人群先相聚,而且往往是地理相近的汉族先相聚,然后再与地理相近的少数民族相聚,最后才与地理远的汉族及少数民族人群相聚。在南方人群中,广东、广西汉族与壮族、瑶族、苗族、侗族、黎族等族先相聚,而贵州、湖南、四川汉族则与彝族、土家族两族先相聚,然后再聚在一起。在北方人群中,吉林、内蒙古、黑龙江、甘肃汉族先相聚,然后与蒙古族相聚,再与已相聚在一起的陕西汉族及回族相聚,然后再与满族、朝鲜族、藏族、鄂伦春族等少数民族相聚,最后与维吾尔族相聚[12]

图17 10个汉族人群和14个少数民族的聚类图

用UPGMA法绘制的系统树(见图18)上也可以看到,无论汉族和少数民族,都分南、北(即图中下、上)两大人群。不过,总的说来,汉族人群间还比较靠近,而少数民族则分得很散。尤其是北方内蒙古、甘肃、黑龙江、陕西、吉林等地的汉族更是紧靠在一起。南方汉族中,四川、湖南、贵州汉族在一枝上,而且比较靠近;广东与广西汉族在另一枝上,而且广西汉族与壮族紧靠在一起。土家族、彝族处在南方这一大枝的最下方,靠近北方人群[13]

(八) 对新石器时代化石的聚类分析

(1) 张振标分析了我国新石器时代14组化石的颅骨测量资料,进行了聚类。结果发现,我国新石器时代的居民体质特征也分为南、北两大类型:北部类型包括河南小王岗,湖北房县,陕西半坡、华县、宝鸡、横阵,甘肃永登,河南庙底沟,山东野店、西夏侯;南部类型包括广西甑皮岩、浙江河姆渡和福建昙石山。北部类型的特点是颅骨较短而宽且高,面部较高而宽且扁平,鼻部高而较窄、鼻根较高,身材也较高;南部类型则是颅骨较长、颅宽中等偏宽、颅高略低,面部低而不宽,鼻部低而宽、鼻根较低,身材较矮(见图19)。

所以张振标指出,现代中国人南、北两大组的体征,是我国新石器时代居民体征的延续和发展[5]

图18 汉族及少数民族24个人群的聚类图

图19 十四组新石器时代颅骨聚类分析的树状图

(2) 陈德珍也对我国新石器时代各地居民的体质类型进行了分析。所用的体征项目是:头长、头宽、头高(ba —b)、额最小宽、颧宽、上面高(n —pr)、眶高、眶宽(mf—ek)、鼻宽、鼻高及总面角等11项。计算的是Penrose’s形状距离及Q型相关系数的主成分分析法。男性与女性各人群的聚类结果分别如图20与图21所示,其主成分分布图分别如图22与图23所示。

原作者根据聚类图与主成分分布图,得出下列主要结论:① 广西柳江人和北京山顶洞人分别是旧石器时代华南人类和华北人类的代表,他们和新石器时代各人群差异较大。② 可将福建昙石山、广东河宕、广西甑皮岩及浙江河姆渡等4个人群归为新石器时代的华南类型。③ 其余各人群均属新石器时代的华北类型,其中河南的下王岗与庙底沟及山东野店为一小组,河南石固、山东大汶口及西夏侯为一小组;陕西宝鸡、华县、半坡及内蒙古红山后为一小组。④ 陕西横阵人群则可能是华北、华南两大类型血缘混杂的结果。

图20 男性各组形状距离聚类图

图21 女性各组形状距离聚类图

图22 男性各组主成分的分布图

图23 女性各组主成分的分布图

作者还指出,在我国新石器时代各人群具有的所谓南亚人种特点,如狭长的颅型、高颅、低眶、宽鼻及出齿槽突颌现象,本身就是我国新石器时代人类固有的特点,只是在不同的类群中所表现的程度有所差异而已[14]

(3) 刘武根据牙冠及牙根的28项形态特征,计算了亚洲地区的26个包括新石器时代及现代人的人群间的MMD(mean measure of divergence)。结果如图24与图25所示,其中图24是根据牙齿8项形态特征对26个人群的聚类结果,而图25则是根据牙齿27项形态特征对17个人群的聚类结果。

结果表明,东北亚各人群聚类在一起,牙齿特征属中国型(Sinodonty),而东南亚各人群(包括史前台湾人)聚类在一起,其牙齿类型属巽他型(Sundadonty)。香港和华南人在图25中却与东北亚蒙古人聚类在一起。而在图24中只有华南人与东北亚蒙古人聚类在一起,香港人仍与东南亚各人群聚类在一起。作者认为香港和华南人的牙齿特征属过渡类型,华南很可能是这两种类型的分界线[15]

Turner认为具巽他型牙特征的人群至少在17 000~30 000年前在东南亚地区。这种具有巽他型牙的东南亚人类沿亚洲大陆架向北迁移,一直到日本的北海道,在日本列岛形成了绳纹人及其后代阿伊努人。而早期东南亚人类的另一分支约在20 000年前沿亚洲大陆内陆向华北、蒙古等地扩散,经过选择或遗传漂变形成中国型牙。然后,经过西伯利亚和白令海峡到达美洲,形成印第安人[16~18]

图24 根据8项牙齿形态特征出现率计算的MMD系数进行聚类分析绘制的反映亚洲地区人类群体亲缘关系的树状图

图25 根据27项牙齿形态特征出现率计算的MMD系数进行聚类分析绘制的反映亚洲地区人类群体亲缘关系的树状图

二、 遗传拓扑学

(一) 用红细胞血型基因频率进行遗传拓扑学分析

翁自立等曾用ABO,MN,Rh,P,ABH等5个血型系统共17个等位基因(或单倍型)频率计算了22个人群间的遗传距离d2,然后进一步用主坐标分析的方法将群体间的遗传距离关系在二维平面上近似地表现出来。图26就是22个民族主坐标分析二维排序图。两个主坐标所保留的信息量为56.1%(第一主坐标的信息量为39.2%,第二主坐标的信息量为16.9%)。第一主坐标(图中的横坐标)反映的是高加索人种和蒙古人种间的基因流。高加索人种在基因与单倍型频率方面的特点是cde,cDe,P1等的频率较高,而蒙古人种的主要特点则是CDe,cdE,P2等的数值较高,而第二主坐标(图中的纵坐标)反映的则是北方蒙古人种与南方蒙古人种之间的基因流。

从图26可看出,在图右半边的塔塔尔族、乌孜别克族、柯尔克孜族、维吾尔族、哈萨克族等是我国各民族中融有高加索人种血缘较多的民族,图中自右向左的这一顺序很可能也已可基本上反映出这几个民族中高加索人种血缘成分的多少。

图26 22个民族主坐标分析二维排序图

在左半边,南方的侗族、苗族、壮族、佤族、白族、傣族、景颇族等的位置都靠上,而回族、汉族(华北汉族)、蒙古族、朝鲜族、满族等典型的北方民族都在图的下半部,这是符合预期的,可是彝族与土家族也在下半部。彝族可能由于原先起源于我国北方的羌人,而南迁后融入了一定比例的南方土著的血缘,使他们处于南北两大组人群之间。而土家族也在下半部,不太清楚其原因,可能与调查取样和所研究的基因座还不十分相关[19]。后来用更多基因座的基因频率分析的结果表明,土家族与彝两族基本上属南方蒙古人种[12,13]

(二) 用红细胞酶基因频率进行遗传拓扑学研究

谭茜等分析了我国21个人群的脂酶D、酸性磷酸酶、谷丙转氨酶和6—磷酸葡萄糖酸脱氢酶的多态性。然后用这4个基因座的基因频率对21个人群进行了遗传拓扑学分析。21个人群中包括5个汉族人群和16个少数民族。在用基因频率计算人群两两间的遗传距离时,用了B2及E2两种遗传距离计算方法。得出的各B2与E2间的相关系数高达0.998 7,所以后来只用E2进行了其前两个主坐标的二维排序,然后将21个人群遗传距离的前两个主坐标和地理距离的主坐标进行了同步排序,即进行最大一致的拟合(用最小二乘法)。结果如图27与图28所示[20]

图27 汉族5个人群的二维同步排序图

图28 16个少数民族的二维同步排序图

1) 汉族

图27是5个汉族人群的二维同步排序图。5个汉族人群目前居住的地理位置(图27中箭头所示)虽十分遥远,他们的遗传位置(图27中圆点所示)却明显地向中原地区聚拢。这说明各地汉族人群确有共同的血缘。但5个汉族人群的遗传位置也有明显的差异。西安与哈尔滨两个人群的遗传位置十分接近,而且位在北方,说明他们之间在遗传结构上比较相似,而且北方蒙古人种的血缘占很大的成分。尤其哈尔滨汉族大多是从山东、河北等地迁移过去的,在黑龙江居住一般才几百年,其遗传结构与中原汉族十分相似。成都与贵阳两地汉族的遗传位置几乎重叠在一起,说明两地人群的遗传结构非常相似,而且其遗传位置在西安、哈尔滨两人群的遗传位置之南,说明所含的北方蒙古人种血缘比西安、哈尔滨两人群少,而南方蒙古人种血缘则较多。漳州人群的遗传位置在最南方,说明在5个人群中,漳州人群所含南方蒙古人种的血缘最多。

2) 少数民族

在少数民族中,朝鲜族、满族和蒙古族的遗传位置(图28中黑圆点所示)相互十分接近,说明这3个民族的遗传结构是比较相似的,存在较密切的血缘关系。图28中朝鲜族的居住地是延吉市,不过在实际上延吉市的朝鲜族是两百多年内才逐渐从朝鲜半岛迁去的。所以3个民族的遗传位置均在地理位置之西北,这也反映历史上这3个民族曾住在比今天居住地西边更北的地方,后来才逐渐南迁。蒙古族、满族、朝鲜族等在古代的起源地可能比他们在图28中的遗传位置更靠北,由于他们已融入汉族等一些其他民族的血缘,因此使他们的遗传位置向南移了。

藏族的遗传位置在最北方,所以藏族无疑起源于北方。至于藏族的遗传位置甚至比蒙古族、满族、朝鲜族等民族的遗传位置还要靠北,并不一定意味着藏族的起源地点比后3个民族在更北方,更可能的说法是藏族在南迁以后,与中原汉族及南方少数民族极少发生融合,而蒙古族、满族、朝鲜族等却融入汉族等其他民族的血缘较多。同时由于藏族在南迁后,一直在青藏高原的高寒气候条件下生活,与寒冷的北方差别不大,因此自然条件通过选择作用对于藏族这4个基因座的基因频率的改变影响也不大。可能正是由于这些原因,使藏族的遗传位置更靠北,即与汉族的差异比蒙古族、满族、朝鲜族等族与汉族的差异更大。

彝族的遗传位置在北方,也说明他们起源于北方,同时彝族在南迁后融入了一定的南方人群的血缘,可能比藏族融入的更多,因此其遗传位置在藏族遗传位置之南也是符合预期的。如果分析的基因座增多,彝族的遗传位置可能会更向南移一些。

维吾尔族的遗传位置在南方,这也许可以解释为取样地乌鲁木齐市的维吾尔族原来生活在新疆南部,但这种解释似是而非,因为据史书记载,在两千多年前,维吾尔族曾生活在贝加尔湖及巴尔喀什湖一带。而且,维吾尔族中还有相当多的白种人血缘成分。这些在图28上的维吾尔族的遗传位置都未显示出来。同时,图28中却显示出维吾尔族在遗传结构上与哈尼族十分相似,这也是无法解释的。总之,用4个基因座的基因频率计算得出的二维同步排序图上的遗传位置,并不都是非常合理和有深刻含义的,因为所用的位点有限,如果对图28中每一结果都去解释,有时会十分勉强。

回族在图中的遗传位置向中原汉族靠拢,这显示他们融入了相当多的汉族血缘。不过回族在图28中的遗传位置,没有充分显示出他们含有的中亚、阿拉伯人的血缘。这可能和所分析基因频率的基因座数比较有限有关。

云南白族的遗传位置也显示出他们向汉族靠拢,这也反映出白族中融入了相当多的汉族血缘。与回族相比,白族先民原来是南方的人群,所融入的汉族也大部分是长江流域的汉族,而回族所融入的主要是北方汉族的血缘,因此白族的遗传位置在回族的遗传位置之南,也是符合预期的。

苗族和土家族在图28中的遗传位置十分靠近,与其地理位置也均相距不远。从群体遗传学数据的初步分析来看,苗族和土家族都是在长江流域居住很久的人群,他们属南方蒙古人种,但也不同于壮族、黎族等典型的南方类型。

壮族、侗族、黎族、瑶族、布依族等族的遗传位置都在其地理位置之南,说明他们都起源于南方,均应属于典型的南方蒙古人种。

三、 主成分分析

人群遗传结构的差异,实质上是基因频率的差异。分析人群基因频率的地理分布,有助于了解人口迁移、人群融合、自然选择、漂变、地理和社会隔离、突变等对人类微进化的影响,有助于了解现代人的起源与扩展[21]。但是各个基因座在各个人群中的基因频率分布变化十分复杂,很难看出目前各基因频率地理分布的总趋势与造成这种分布的原因或事件。主成分分析对于解决上述困难很有帮助。肖春杰等用人类基因频率地理分析的软件Genography对中国人群38个基因座上130个等位基因的频率进行了主成分分析,并绘制了主成分分布地图与综合地图[22]。进行基因频率主成分分析的基因座与计算中国人群间的遗传距离及聚类分析[12]时所用的相同,包括红细胞血型、白细胞抗原系统、红细胞酶、血清蛋白质以及血型分泌型、苯硫脲昧盲和耵聍类型等,结果如下:

1) 汉族

汉族的第1主成分的方差占总方差的32%,即包含了基因频率总变量的1/3左右的信息量,其地理分布明显地显示出从东北向西南、主要是向南的梯度变化。可以认为,它反映了北方蒙古人种与南方蒙古人种间遗传结构的差异。越往南,南方蒙古人种血缘越多,而同时北方蒙古人种血缘越少。值得注意的是在长江以北只有两个梯度,说明北方各地汉族人群在遗传结构上已融合得相当均匀了。而在长江以南地区,第1主成分和下面要谈到第2~第4主成分分布的梯度相当密,表明其遗传结构变化大而剧烈。可以看出,在汉族中南方蒙古人种血缘成分最高的是海南、广西及广东西部(见图29a)。

图29 汉族人群基因频率主成分分布图

汉族人群基因频率的第2主成分的方差占总方差的23.9%。它的梯度变化是从西部向东、向南的,差异最大的是中国西部与海南、广东两省之间(见图29b)。第2主成分反映了高加索人种与蒙古人种之间的基因流动。可见,在汉族各地人群间,高加索人种与蒙古人种间基因流动所造成的遗传结构差异只居次要地位,而南、北方蒙古人间的基因流动所造成的差异却居主要地位。也就是说,高加索人种流入汉族人群的基因并不很多,因此对各地汉族遗传结构的影响不是很大。

汉族各地人群基因频率的第3、第4主成分分别反映了8.6%与5.5%信息量,在图29c、图29d中,有一些颜色特别深或特别浅的区域,如广东、广西与海南,长江三角洲,内蒙古中部、北部与山西、宁夏,四川南部等,这些地区很可能在古代某一时期因农业、牧业比较发达,或石器、青铜器、陶器等制造比较先进,而曾出现过人口骤增、向邻近地区扩展的情况。由于基因频率调查的取样地点密度并不算大,所以这些地区的定位可能还不够精确。而出现人口骤增、向邻近地区扩展的年代,则需要与考古学、人类学、语言学、历史学等其他学科的研究结合起来,才有可能得出结论。

2) 少数民族

少数民族的基因频率主成分分布与汉族的有许多相似之处。可是两者也有明显的区别,首先是少数民族基因频率的第1主成分反映了高加索人种与蒙古人种间的基因流动,而第2主成分则反映了南、北方蒙古人种间的基因流动,这正好与汉族人群中的情况相反。

少数民族基因频率分布的第1主成分自西北向东、向南呈梯度变化(见图30a),显然,它是由高加索人种与蒙古人种之间的基因流动所造成的。西北地区少数民族处于一个极端,而广东、广西及海南等省区少数民族处于另一极端,即其高加索人种血缘最少。第1主成分的方差为总方差的30.1%。

少数民族基因频率分布的第2主成分占总方差的18.6%,它呈现自东北向西北、主要是向南的梯度变化。颜色最浅的是东北、颜色最深的是广东、广西、海南、云南以及福建南部。可以明显看出,它和汉族人群中的第1主成分一样,反映了南、北方蒙古人种间的基因流动(见图30b)。

少数民族基因频率分布的第3主成分的方差占总方差的13.6%,整个分布地图显示出东北与西南部灰度最浅,而东南与西北部灰度最深(见图30c)。这也许是因为这些灰度最深或最浅的地区是我国少数民族祖先的几个主要发源地,在历史上曾经一度人口骤增,向中原地区扩展过。这只是初步推测,尚有待更多的基因频率数据和其他资料,再作深入的分析。

少数民族基因频率分布的第4主成分的方差占总方差7.5%,它十分明显地显示出,是以黄河中游为核心,向四面扩展的(见图30d)。黄河中游是五千年前以炎、黄两族为核心形成的华夏族(即汉族的祖先)的发源地,因此,第4主成分很可能反映了以华夏族为基础的汉族的基因向四周各地少数民族扩散这一历史事实。

图30 中国少数民族人群基因频率主成分分布图

可是在汉族的第1~第4主成分分布图中,却没有显示出华夏族对各地汉族基因频率的明显影响,出现这一结果的最可能的解释是各地汉族基因频率受当地其他人群(古代少数民族)的影响大,而受华夏族的影响小。这一点也被对全国各地汉族和少数民族人群间遗传距离的分析所证明,各地汉族人群与当地少数民族的遗传距离,平均要比各地汉族间的小,差异显著[12]

3) 汉族与少数民族合在一起分析

图31 中国人群基因频率主成分分布图

汉族与少数民族人群的数据放在一起分析得出的全中国人群基因频率第1~第4主成分的方差,分别占总方差的30.4%,17.2%,12.2%及6.0%,这些主成分的分布地图明显地与少数民族主成分分布地图相似(见图30、图31)。有两点主要的不同之处:一是在反映南、北方蒙古人种间基因流动的第2主成分分布地图(见图31b)中,西北地区与东北地区的差异减小了。这是可以理解的,因为西北地区的汉族主要是从中国北部其他地区迁去的,由于汉族数据的加入,自然会使少数民族基因频率原第2主成分分布地图上西北地区与东北地区的差异减小。二是两张第3主成分分布地图(见图30c与图31c)虽然图形十分相似,可是深色区与浅色区相互调换了,全中国主成分分布地图中的深色区相当于少数民族分布地图上的浅色区,而其浅色区则相当于另一张图上的深色区。这是由于制图时的技术问题造成的,并无实质上的意义。

4) 主成分综合图

肖春杰等利用所收集的全部基因频率数据,加上Cavalli-Sforza实验室原来收集的亚洲人群基因频率数据,绘制了亚洲人群基因频率第1~第3主成分的综合地图(见图32)可以明显看出,华南南方蒙古人种居住的区域与东南亚等区域相连,而长江以北的北方蒙古人种居住区与整个西伯利亚连成一片,中亚地区与高加索人种居住的欧洲相连,说明在中亚地区,人群中高加索人种的血缘有所增加。

在Cavalli-Sforza等人所绘制的世界人群基因频率的主成分综合地图上[23]。东西伯利亚的深色区与美洲相连,而印度尼西亚、菲律宾、新几内亚等的浅色区与澳大利亚相连。从以上叙述可以看出,中国长江附近的南、北方蒙古人种居住区的分界线,在世界范围内显得何等地突出、明显。

图32 亚洲的主成分综合分布图

四、 中华民族的源与流

根据以上对我国各民族与人群以各种不同指标所进行的遗传距离、主成分分析及遗传拓扑学分析,我们可以对中华民族的源与流、各民族的遗传结构及彼此间的血缘关系,提出下列初步看法。

(一) 人种血缘

从人种关系上讲,中国各民族中,俄罗斯族原属高加索人种,但近一二百年来,中国的俄罗斯族已与汉族等蒙古人种民族发生了血缘混杂。在中国俄罗斯人数虽不多,可是居住分散,且各地俄罗斯人群与其他民族的血缘混杂程度不一。因此,对俄罗斯民族中高加索人种血缘还占多少成分的总的估计,不可能作出。在中国各民族中,塔吉克族、塔塔尔族、柯尔克孜族、乌孜别克族等民族,具有较多的高加索人种的血缘,在迁入中国后,与其他民族血缘混杂很少,但其主要血缘成分是蒙古人种的还是高加索人种的,尚有待进一步的研究,以积累更多的研究资料,才能作出判断。而维吾尔族虽也有一定的高加索人种血缘,可是绝大部分是蒙古人种血缘,因此可以肯定属蒙古人种。哈萨克族与回族等民族,也有一定的高加索人种血缘,但其成分比维吾尔族所含有的还少。在全国范围内,高加索人种的血缘自西向东、自北向南越来越少,而最少的是在南方。可见,高加索人种基因流入中国,主要是从中国西部、从中国东北部由俄罗斯人带入少量高加索人种血缘。虽然印度人也属高加索人种,离中国南方也较近,却没有带入什么高加索人种血缘到中国南方人中。

在全国各地人群的遗传结构差异中,就少数民族而论,高加索人种与蒙古人种间基因流动所造成的差异占主要地位,把少数民族与各地汉族人群放在一起分析时也如此。仅仅就汉族而言,则在各地汉族人群间的遗传差异中,北方蒙古人种与南方蒙古人种间基因流动所造成的差异占主要地位。

3大人种(蒙古人种、黑人种、高加索人种)彼此间关系如何?在用HLA基因频率进行聚类分析时,高加索人种先与黑种人聚类,最后才与蒙古人种的人群相聚[2]。也就是说,高加索人种与黑种人血缘近,而与蒙古人种血缘远。但在用卫星DNA的基因频率进行聚类时,蒙古人种却与高加索人种的血缘近而与黑种人的血缘远[24]。用Y染色体的微卫星位点DYS390的基因频率进行聚类时,也是蒙古人种与高加索人种血缘近,而与黑种人的血缘远[25]。世界上以大量基因频率及DNA遗传多态性数据也已证明,3大人种中,高加索人种与蒙古人种血缘相近,而黑种人与高加索人种及蒙古人种的血缘远,这已是确定无疑的了[23]

(二) 北方蒙古人种与南方蒙古人种

除对新疆3~4个少数民族尚需进行深入一些的研究外,可以认为,中国人由北方蒙古人种与南方蒙古人种两个亚人种组成,即无论汉族与少数民族,都可分为南、北两大群,分别属于南方蒙古人种与北方蒙古人种这两个亚人种。南、北蒙古人种的分布,基本上是以长江为界。过去,有人提出以北纬30°为界,虽然北纬30°与长江中、下段相当接近,但是纬度是一条人为的直线,而长江却是隔离人群的天然屏障,所以以长江为界更为合理。自重庆以西,则四川茂县羌族、阿坝州、甘孜州直至青海、西藏等地藏族应属北方蒙古人种,成都市等地汉族仍是南方蒙古人种,而四川与陕西交界地区,南、北蒙古人种的分界线在何处,尚有待深入研究。

过去,在文献中曾提出过蒙古人种东亚类型与南亚类型及北亚类型并列[26]。现在看来,东亚类型并不单独存在,他们或者应归入南亚类型(即南方蒙古人种),或者应归入北亚类型(即北方蒙古人种)。有的则是基本上属南方蒙古人种,但融入有北方蒙古人种一定成分血缘;或原来起源于北方,但迁移到南方后已融入有南方蒙古人种的一定成分血缘,已基本上属南方蒙古人种。还有人提出,中国人除南、北两大类型外还有第三种类型,他们称之为“藏彝走廊类型”,包括从甘肃南部到云南西部、南部属藏缅语族的各少数民族(保安族、东乡族、纳西族、藏族、羌族、白马藏族等)[6,7]。他们认为有“藏彝走廊类型”这第三类型所依据的只是用人体测量数据进行的聚类分析,用其他遗传标记作依据进行聚类分析时,这一类型并不出现。

(三) 汉族的遗传结构

在各地汉族人群中,北方人群之间的遗传距离比南方人群之间的要近(见图13、图14、图18及表1)。这可能是因为北方有不少广袤的平原,黄河冬天封冻而且经常改道;而且几千年来多次因战乱与灾荒造成的人口大迁移与民族大融合也发生在北方,因此北方的人口流动比南方更为频繁,也较容易。

长江以北的汉族人群属北方蒙古人种,长江以南的汉族人群属南方蒙古人种。这在以红细胞血型、白细胞血型、皮纹学指标、免疫球蛋白同种异型Gm因子、人体测量学及多指标为依据所进行的遗传距离与聚类分析的结果中,明显可以看到。

各地汉族在主成分分布图人群和二维同步排序图中,都可清楚地看出,在历史上黄河中游的华夏族曾向四周扩散。各地汉族人群与地理相近的汉族人群遗传距离最近,和当地的少数民族的遗传距离居其次,而与地理距离远的汉族人群间、特别是南方汉族人群与北方汉族人群间的遗传距离更远(见表1、图17、图18)。这充分说明汉族与本地的少数民族间已有了许多基因流动,他们的遗传结构已十分接近了。从历史记载看,这主要是少数民族融入汉族的结果,也有部分是汉族融入少数民族的结果。而且汉族今天之所以能成为世界上人口最多的民族,主要是不断地融入其他民族的结果。

(四) 北方少数民族

(1) 蒙古族、朝鲜族、满族、锡伯族、赫哲族、达斡尔族、鄂伦春族、鄂温克族等是典型的北方蒙古人种民族。其中鄂温克与鄂伦春比较特殊,因为他们原来在更北方(在西伯利亚),后来才迁到黑龙江以南。

(2) 全国回族没有统一的起源。各地回族融入有一定的高加索人种血缘,而且其成分多少不一。一般说来,西北地区宁夏等地的回族融入的高加索人种血缘较多。可是回族中融入的高加索人种血缘比维吾尔族、哈萨克族等民族少,比塔吉克族、塔塔尔族、柯尔克孜族、乌孜别克族、俄罗斯族等民族则更少。北方的回族肯定属北方蒙古人种,但福建、云南的回族有可能属南方蒙古人种,特别是海南的回族,肯定属南方蒙古人种。

(3) 藏族肯定属蒙古人种,而且在平行排序图上可以明显地看出,藏族起源于北方。藏族自北方向青藏高原迁移发生在史前时代,但究竟什么时候,还有待进一步研究。据考古发现,西藏也发现了新石器时代的人类遗址。那么,在自北方迁至西藏的藏族先民在到达西藏之前,西藏有没有人类?如果有的话,这些人的血缘在目前藏族中占多大比例?很可能,在西藏发现的新石器时代人类遗址,也是从北方迁移过去的人类留下的,由于藏族一直住在高寒地区,其生活条件与中国北方相似,而且他们与外界、特别是南方蒙古人种的各民族接触较少,因此他们至今与一些典型的北方蒙古人群的遗传距离仍十分近。

(4) 羌族也起源于北方,但现都居住在四川茂县一带,他们明显地仍属于北方蒙古人种。

(5) 在图1中维吾尔族没有和柯尔克孜族、乌孜别克族、塔塔尔族等族相聚,说明维吾尔族虽然也有部分高加索人种血缘,却比较少,大部分是蒙古人种的血缘。维吾尔族与哈萨克族相聚也不是偶然的,这是因为他们的高加索人种血缘比柯尔克孜族、乌孜别克族、塔塔尔族、塔吉克族等都少,而北方蒙古人种血缘都较多。在以38个基因座的基因频率进行聚类时,维吾尔族与哈萨克族仍首先相聚,再与塔吉克族、柯尔克孜族相聚,然后才与我国其他北方民族相聚,说明这些民族由于都具有一定的高加索人种血缘,所以遗传结构是相似的。

在用HLA基因频率进行聚类分析时,维吾尔族没有和中国的其他民族相聚,却最后勉强地与白种人人群相聚了。这一方面说明维吾尔族实际上是同时含有蒙古人种与高加索人种血缘的人群,另一方面也说明,虽然维吾尔族最后与高加索人群相聚,但很勉强。其聚类可能与HLA这几个基因座的特殊性有关。如果用其他基因座或更多基因座的基因频率来分析,维吾尔族就不一定与高加索人群相聚。事实也正如此。在用微卫星DNA和HLA的基因频率进行聚类时维吾尔族也首先与蒙古人种人群相聚,而不是首先与高加索人群等其他人群相聚[2,11]。在用38个基因座的基因频率进行聚类时,维吾尔族很自然地与中国北方民族先相聚,然后与南方民族相聚。

(6) 北方少数民族中,人口较少的保安族、撒拉族、土族、裕固族、东乡族等,虽然研究得较少,但肯定属北方蒙古人种。而对现住西藏的门巴族、珞巴族和现住云南的普米族、怒族、独龙族等民族则至今研究得还很不够,有待进行更多的人类群体遗传学研究。

(五) 南方少数民族

(1) 壮族、傣族、黎族、瑶族、布依族、侗族、京族等都是典型的南方蒙古人种民族。

(2) 彝族、景颇族、纳西族、阿昌族、白族、基诺族、拉祜族、哈尼族、傈僳族等,有不少是起源于北方的,但今天已融有许多南方蒙古人种的血缘,因此已基本上属南方蒙古人种。不过,当所用分析的指标较少或基因频率数据的准确性不是很高时,这些民族中有的还会显示出与北方蒙古人种人群数据相近。

(3) 对仡佬族、仫佬族、水族、毛南族、畲族等人口较少的民族研究得较少,但可以完全肯定,他们都属南方蒙古人种。

(4) 苗族和土家族遗传结构比较相近,他们既不属于北方蒙古人种,也不同于典型的南方蒙古人种,但基本上属南方蒙古人种。土家族是久居当地的土著,苗族则可能一度曾居住到长江以北地区。苗族人口众多,住得很分散,有许多分支,值得进一步深入研究。

(5) 德昂族、市朗族、佤族3个民族,其语言同属南亚语系孟—高棉语族,在遗传结构上也相似。他们是云南最早的原住民,在血缘上也与东南亚、南亚的蒙古人种最为接近。

(6) 高山族实际上包括9个族群,即泰雅人、赛夏人、布农人、邹人、鲁凯人、排湾人、卑南人、阿美人和雅美人。原来还有平埔人是住在平地的,已完全融入汉族了。他们大部分来自菲律宾、马来西亚、文莱等地,小部分来自中国大陆南方。他们属南方蒙古人种,而且与东南亚人群在遗传结构上十分相近。

(六) 亟待研究的一些问题

(1) 与疾病发生率有关的遗传多态性研究。

(2) 与药物遗传学有关的遗传多态性研究。

(3) 作为中国人祖先的现代人,是本地起源还是非洲起源?现在多数学者及证据,均支持非洲起源说[23,24,27,28]

(4) 如果非洲起源,则今天南方蒙古人种的祖先和北方蒙古人种的祖先是在进入中国境内以前已分开的,还是在进入中国境内以后才分开的?

如果是进入中国境内以前已分开,则意味着北方蒙古人种的祖先是从帕米尔高原以北地区进入中国的,而南方蒙古人种的祖先是从中东沿着亚洲大陆南部海岸直达南亚、东南亚,然后往北,直达长江,甚至一度曾到达长江以北的东部地区。

如果南方蒙古人种祖先与北方蒙古人种的祖先是进入中国境内以后才分开的,则有两种可能:南、北方蒙古人种的共同祖先是中东先沿南亚海岸直达东南亚,再往北越过长江,在北方的发展为北方蒙古人种各人群,在南方则发展为南方蒙古人种各人群。或者,是从帕米尔高原以北地区进入今天的中国境内,向东扩展,在北方与南方分别发展成为今天的北方蒙古人种与南方蒙古人种各人群。

目前,以上3种情况都有人提出[17,18,22~24],但是都尚缺乏足够的论据。

(5) 今天我国的俄罗斯族、塔吉克族、塔塔尔族、乌孜别克族、柯尔克孜族等民族中,高加索人种血缘和蒙古人种血缘各占多大比例?这尚有待进行定量的研究。

(6) 许多民族中包括有严重隔离的亚人群,需要进一步研究其亚人群。举例如下:

瑶族人口众多、分布极广、分支很多,有的讲属苗瑶语族瑶语支的瑶语,有的讲属苗瑶语族苗语支的布努语,还有的讲壮侗语族侗水语支的拉珈语。

苗族也分布很广、人口众多、分支很多。有3大方言,即湘西、黔东和川黔滇方言。

裕固族分3部分,讲3种语言:住在甘肃肃南县西部的使用属阿尔泰语系突厥语族的尧乎尔语,住在肃南县东部的使用属阿尔泰语系蒙古语族的恩格尔语,住在酒泉市黄泥堡和肃南县双海地区的使用汉语。

黎族有加茂、本地、侾、美孚、杞等5个分支,各分支自大陆进入海南岛的时间早晚不一。

在怒族中,云南原碧江县一带的怒族和贡山、福贡、维西一带的怒族的起源明显不同,前者与彝族血缘相近,而后者与独龙族血缘相近。

鄂温克族有被称作“雅库特”、“通古斯”及“索伦”等3个分支。

彝族原来有黑彝与白彝,原黑彝是真正的彝族,是过去彝族社会中的奴隶主统治阶级,而白彝则大部分是从汉族等邻近民族中抢来的,并不是真正的彝族。

回族并无统一起源,所以各地回族,如宁夏、福建、海南、云南等地的回族,遗传结构必然不同。

藏族分布在很广袤的地区范围,讲3种方言,即卫藏方言、康巴方言和安多方言。

拉祜族中有黑拉祜、黄拉祜和白拉祜3个分支。

(7) 对于一些偏远的民族,如独龙族、怒族、傈僳族、门巴族、珞巴族、柯尔克孜族、塔吉克族、塔塔尔族等,一些人数较少的民族,如仡佬族、水族、毛南族以及一些未识别民族,如僜人、白马藏族、克木人、莽人、夏尔巴人、疍民等,目前均缺乏深入研究。

参考文献

[ 1 ] 袁义达,杜若甫.中国十七个民族间遗传距离的初步研究[J].遗传学报,1983,10(5):398—405.

[ 2 ] 赵桐茂,张工粱,袁义达.用HLA基因顿率计算人群间的遗传距离[J].人类学学报,1984,3(2):165—169.

[ 3 ] 徐星培,程定珍,王增慧,等.中国8个民族HLA多态性的血清学研究[J].人类学学报,1993,12(2):157—165.

[ 4 ] 赵桐茂,张工粱,朱永明,等.免疫球蛋白同种异型Gm因子在40个中国人群中的分布[J].人类学学报,1987,6(1):1—9.

[ 5 ] 张振标.现代中国人体质特征及其类型的分析[J].人类学学报,1988,7(4):314—323.

[ 6 ] 黎彦才,胡兴宇,汪澜.中国33个少数民族(部族)体质特征的比较研究[J].人类学学报,1993,12(1):49—54.

[ 7 ] 郑连斌,陆舜华.我国23个群体的聚类分析与主成分分析[J].人类学学报,1997,16(2):151—158.

[ 8 ] 刘武,铃木基治.亚洲地区人类群体亲缘关系—活体测量数据统计分析[J].人类学学报,1994,13(3):265—279.

[ 9 ] 张海国.汉族人群指纹综合分析[J].人类学学报,1988,7(2):121—127.

[10] 张海国,丁明,焦云萍,等.中国人肤纹研究Ⅲ.中国52个民族的肤纹聚类[J].遗传学报,1998,25(5):381—391.

[11] Chu J Y, Huang W, Kuang S Q, et al. Genetic relationship of populations in China[J].Proc Natl Sci USA, 1998, 95: 11763—11768.

[12] 杜若甫,肖春杰,Cavalli-Sforza L L.用38个基因座的基因频率计算中国人群间的遗传距离[J].中国科学(c辑),1998,28(1):83—89.

[13] 杜若甫,肖春杰.从遗传学探讨中华民族的源与流[J].中国社会科学,1997(4):139—149.

[14] 陈德珍.中国新石器时代居民体质类型及其继承关系[J].人类学学报,1986,5(2):114—125.

[15] 刘武.华北新石器时代人类牙齿形态特征及其在现代中国人起源与进化[J].人类学学报,1995,14(4):360—378.

[16] 刘武.蒙古人种及现代中国人的起源与演化上的意义[J].人类学学报,1997,16(1):55—73.

[17] T urner CGII. Teeth and prehistory in Asia[J]. Scientific American, 1989, 206(2):88—96.

[18] Tumer CGIl. Major feature of Sundadony and Sinodonty, including suggestions about East Asian microevolution, population history, and late Pleistocene relationship with Australian Aboriginals[J]. Am J Phys Anthrop, 1990 (82): 295—317.

[19] 翁自力,袁义达,杜若甫.中国人群遗传结构分析[J].人类学学报,1989,8(3):261—268.

[20] 谭茜,杜若甫.中国21个人群的遗传拓扑学分析[J].人类学学报,1993,12(1):80—87.

[21] 肖春杰,Cavalli-Sforza L L, Minch E,等.中国人群的等位基因地理分布图[J].遗传学报,2000,27(1):1—6.

[22] 肖春杰,杜若甫.中国人群基因频率的主成分分析[J].中国科学(c辑),2000,30(4):434—442.

[23] Cavalli-Sforza L L. History and geography of human genes[M]. USA: Princeton Univ Press, 1994: 518—541.

[24] Su B, Xiao J H, Underhill P, et al. Y-chromosome evidence for a northward migration of modern humans into eastern Asia during the last ice age[J]. Am J Human Genet,1999(65): 1718—1724.

[25] 腾百军,陈峰,傅松滨,等.我国东北地区3个群体DYS390多态位点的遗传学研究[J].人类学学报,2000,19(4):318—323.

[26] 杜若甫.用人类群体遗传学数据分析中国各民族的起源[A].中国遗传学研究(1987—1990)[M].中国遗传学会编,北京:中国科学技术出版社,1991:3—20.

[27] Mountain J L. Lin A A, Bowcock A M, et al. Evolution of modem humans: evidence from nuclear DNA polymorphisms[J]. Phil Trans R Soc Lond B, 1992, 332: 159—165.

[28] Ke Y, Su B, Song X, et al. African origin of modern humans in East Asia: A tale of 12 000 Y Chromosomes[J]. Science, 2001(292): 1151—1153.

本文节选自《中国人群体遗传学》,北京:科学出版社,2004:761—802。

【注释】

[1]本文作者为陈正华。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈