目的:1.掌握流行病学变量的基本类型、整理原则和方法。
2.基于案例学习和讨论不同类型流行病学数据分析方法的选择思路与结果阅读。
课时:3学时。
流行病学研究是从文献回顾开始,在正确的研究设计指引下开展的,本节涉及的内容是在流行病学数据收集完毕并且已经建立电子数据库之后的一些相关工作,主要包括4个方面:①数据的核查;②数据的整理;③数据的统计描述;④数据的统计推断与结果阅读。
一、变量类型
在正式开始本节课之前,我们先回顾一下流行病学数据处理中重要的基本概念——变量的类型。
1.从统计学角度将变量分类
(1)连续型变量:其取值理论上可以取到区间中的任意一个值,如身高、体重、血压等。
(2)离散型变量:其取值范围是有限个值或者为一个数列,可细分为具有分类性质的变量(二分类变量、无序多分类变量、有序多分类变量)和不具有分类性质的变量(特殊的连续型变量)。
1)二分类变量:又称0/1变量,如药物的疗效指标为有效(1)和无效(0)。
2)无序多分类:如血型(A、B、AB和O型)等。
3)有序多分类:如药物的疗效指标分为无效、有效和好转。
4)特殊的连续型变量:如白细胞计数。其取值是离散的,但却并不具有分类的性质,因此,在实际分析中通常把它们作为特殊的连续型变量进行分析。
注意:上述变量的类型并不是一成不变的,可以根据研究目的进行转化,如连续型变量转换为有序多分类变量、有序多分类变量转换为无序多分类资料或0/1变量,即包含信息丰富的变量可以向包含信息少的变量类型转换;反之,则不行。
2.从流行病学角度将变量分类
(1)字符型变量:输入字符为中文或英文,如家庭住址。
(2)数值型变量:以数值的形式输入,如年龄。
(3)日期型变量:按照规定的日期格式输入数值,如yyyy-mm-dd。
(4)逻辑型变量:是否、对错之类问题的回答,如是否接触可疑的暴露因素。
流行病学角度的变量分类方法在数据库建立时非常有用,统计学角度的变量分类方法则在统计分析方法的选择上比较有用。
二、数据的核查
问题1 在建立流行病学数据库之后、正式进行流行病学数据分析之前,我们需要做哪些准备工作?
问题2 当在数据核查中发现存在缺失数据时,我们应该如何处理这些缺失值?
三、数据的整理
问题3 流行病学数据的整理包括哪些内容?
问题4 如何进行数据的分组(即变量类型的转换)?
问题5 为什么需要进行数据转换?有哪些常用的数据转换方法?
四、数据的统计描述
统计描述的目的是对所获取的样本数据进行全面彻底的了解,为进一步的统计推断打下基础。当样本量较小时,研究者可以直接给出原始数据而不用汇总;当样本量达到一定数量时,则应该根据数据的各种分布特征给出汇总描述结果。
1.连续型变量
统计指标:集中趋势(众数、算数平均数、中位数和几何均数)、离散趋势(极差、方差、标准差、四分位数间距和变异系数)和分布描述(偏度系数、峰度系数)。
统计表:频数表。
统计图:直方图、散点图、线图等。
2.离散型变量
统计指标:相对比、构成比、率等各种相对指标,如流行病学上的发病率、患病率、病死率。
统计表:频数表。
统计图:条图、饼图等。
问题6 图12-1显示的X1和X2变量从集中趋势和离散趋势两个角度应该如何进行统计描述?
表12-1为变量X1和X2的相关汇总指标。
表12-1 变量X1和X2的相关汇总指标
图12-1 变量X1和X2的直方图
(W和P是Shapiro-Wilk正态性检验的统计量和相应的P值)
五、数据的统计推断与结果阅读
统计推断包括参数估计和假设检验两部分,这里主要介绍假设检验方法的选择以及统计分析结果的正确阅读。
1.分清应变量和自变量
应变量:是指随自变量的变化而发生变化的变量,是在自变量作用下产生反应的变量,即通常所说的y变量。
自变量:指影响疾病的发生或健康状况分布的变量,即通常所说的x变量。
分清应变量和自变量有助于选择正确的统计分析方法,有助于模型的建立(应变量y放在模型的左侧,自变量x放在模型的右侧)。
2.假设检验方法的选择 统计分析方法的选择有不同的思路,既可以基于变量的类型,也可以基于研究设计,这里首先介绍以变量的类型为基础部分统计分析方法的选择思路,然后重点介绍基于流行病学研究设计的统计分析方法的选择。
(1)应变量为连续型变量
1)自变量为连续型变量:简单相关分析、简单线性回归分析、秩相关分析、秩回归分析。
2)自变量为分类变量:独立样本和配对样本的t检验(2组数据的比较)、方差分析(≥2组数据的比较)、Mann-Whitney U检验、Kruskal-Wallis H检验、Wilcoxon秩检验、Friedman检验。
(2)应变量为离散型变量
1)自变量为连续型变量:Logistic回归分析、对数线性模型。
2)自变量为分类变量:卡方检验(包括配对卡方、分层卡方CMH)、Logistic回归分析、秩相关分析、秩回归分析。
基于流行病学的研究设计,统计分析方法的选择主要涉及:
(1)横断面研究:在现况研究中通常描述研究人群的患病率、危险因素的流行率及数值变量的分布情况。对于某些因素与疾病或健康状态之间的关系,可采用相关或关联性分析;相关的统计推断对于应变量为连续型变量可以采用t检验、方差分析、线性回归分析等方法,对于应变量为离散型变量的可以采用卡方检验、Logistic回归分析等方法。
(2)病例-对照研究:在病例-对照研究中,主要是关于病例-对照两组的可疑暴露因素比例的差异性比较,相关的分析方法有(配对)卡方检验、分层卡方检验(CMH)、Logistic回归分析。
(3)队列研究:在队列研究中,主要是关于暴露与非暴露组随访结束时发病比例(发病率)差异的比较,由于随访过程中常常出现失访,因此通常需要计算人时这样的包含生存时间和结局的指标,分析方法多为生存分析领域的方法,如:Kaplan-Meier生存曲线法、Log-Rank检验法、Cox半参数回归分析、Weibull参数回归分析。
问题7 为了研究饮酒与食管癌之间的关系,研究者随机抽取了一定样本量的食管癌患者和非食管癌患者(对照),回顾性地调查其是否有饮酒史(饮酒史有明确的定义),结果如表12-2(数据来源于沈福民主编的《流行病学原理与方法》)。请问我们该如何分析该数据?
表12-2 饮酒与食管癌的关系
假设两组其他因素间相互均衡,统计分析可选单因素的卡方检验,分析结果见表12-3。
表12-3 饮酒与食管癌间关系的卡方检验结果
问题8 25例某种癌症患者随机分为2组,A组12名患者,B组13名患者,A组给予某种新药治疗,B给予标准疗法,随访2年,结果如表12-4所示,数据中有加号者表示为删失值,请问两组的生存率有无差异?
表12-4 A组和B组癌症患者的生存数据表
首先,本例属于随访研究(队列研究),数据中存在删失,每个数据包含两个信息:结局(生存、死亡)和生存时间,因此其分析方法应该使用生存分析领域的方法,主要的分析结果如表12-5、表12-6和图12-2。
表12-5 生存时间的均数和中位数
表12-6 A组和B组生存率的差异性比较
注:表中3种方法均为生存率差异性比较的方法。
图12-2 Kaplan-Meier生存曲线图
思考题:
1.从流行病学和统计学的不同角度来区分变量类型,它们之间的区别和联系是什么?
2.流行病学研究中,除了文中提及的数据核查内容,是否还有其他重要的内容需要核查?数据核查的意义是什么?
3.对于数据的整理工作,除了数据的分组和数据的转换,还有哪些相关的属于数据整理的内容?
4.数据描述时,是否一定要呈现相应的统计描述指标(如均数、标准差)?统计描述指标使用的基本原则是什么?
5.在统计推断中,目前你们学过的假设检验方法有哪些?它们的使用条件是什么?在流行病学应用中对应的研究设计是什么?
(张志杰)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。