样本含量,就是在一项调查或实验研究中,被调查的人数或用于实验的动物数。有时称其为受试对象的个数或样本大小。在一项具体的调查或实验研究中,究竟应该用多大的样本含量合适呢?一般来说,若从严格定义的总体中随机抽样,样本含量越大越好。但事实上,这样做是行不通的。因为样本越大,所需花在调查或实验上的精力、人力和物力都会很大,有时需要的时间很长。一旦人力和物力等不足,工作开展起来必然会粗枝大叶,数据的精确度必然很低,此时,样本含量越大,提供的错误信息就越多,劳民伤财,的确毫无价值;样本含量过小,也不妥当。因为人们研究的问题往往比较复杂,观测的指标常带有变异性。例如,同是正常人,有的人血压较高,有的人血压较低,统计学上就说血压这个定量指标具有变异性。要想反映带有变异性的指标(常称其为随机变量)的变化规律性,必须在相同的实验条件下进行多次独立的重复实验,才有可能使随机变量的规律性真实地显露出来。例如,用某种新药治疗某种疾病患者,治疗10人结果有8人治愈,我们能认为,该药对于该病的治愈率为80%吗?不能,绝对不能!因为在此项实验研究中,样本含量n=10还是比较小的,80%这个结果可能不具有重现性和稳定性。若设π为该药对于该病的总体治愈率,由统计学知识可算出总体率π的95%置信区间为:44.4%≤π≤97.5%。也就是说,如果我们把同样的实验重复做100批,每批都治疗10名患者,在疗效居中的95批实验结果中,疗效最差时可低到44.4%,疗效最好时可高到97.5%。若用该药治疗该病患者1万人结果有8 000人治愈,此时,我们又能得出什么样的结论呢?由统计学知识可算出总体率π的95%置信区间为:79.2%≤π≤80.8%。也就是说,如果我们把同样的实验重复做100批,每批都治疗1万名患者,在疗效居中的95批实验结果中,疗效最差时也可达到79.2%,疗效最好时也仅为80.8%。于是,我们可以很有信心地说:该药对该病的治愈率为80.0%。这个例子告诉人们,样本含量很小时,依据其实验结果是很难得出明确结论的;而当样本含量很大时,所得的结果就非常稳定,具有很好的重现性。
样本含量通常需要区分,是整个实验研究中的样本含量,还是实验研究中某特定小组中的样本含量。例如,现有3种手术方法需要比较,各手术组均有20名患者,整个实验中含有样本含量N=60,而各小组的样本含量均为n=20。在多因素实验研究中,千万不要仅看N的数值,而应着重考察各组的n数值。再比如,在某项实验研究中,所用的样本含量已达N=1 000例,初看起来,样本含量已相当大了。但仔细一看,发现实验中共涉及4个5水平因素,研究者考虑问题还十分“周到”,即考察的实验条件为全部因素的所有水平组合。事实上,共有54=625个实验小组,每个小组的样本含量n≈1.6例。这个实验设计仍应属于样本含量很小的错误的实验设计。
总而言之,要想使实验结果达到一定的精确度,又不浪费人力、物力和时间,需要根据具体情况、基本信息和精确度要求,估计所需的各小组的最小样本含量。这就是通常所讲的样本含量估计问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。