首页 百科知识 简单频数分布表如何操作

简单频数分布表如何操作

时间:2023-03-11 百科知识 版权反馈
【摘要】:因此,先陈述统计表的设计原理和要求。统计表是纵横线交叉所组成的一种表格,表格内所列的是整理后系统的统计资料。
统计表与统计图_社会统计学

第三节 统计表与统计图

频数分布情况常用统计表来表示。因此,先陈述统计表的设计原理和要求。统计表是纵横线交叉所组成的一种表格,表格内所列的是整理后系统的统计资料。其优点在于:资料易于条理化,简单明了,且可以节省大量文字叙述,便于比较分析,检查数字的完整性和准确性。统计表一般采用上中下三线图,即表的左、右之纵向线条一般不画。统计表的结构,可从表的形式和内容两个方面加以论述。

一、统计表

1.统计表的形式

统计表是由总标题、横行标题、纵栏标题、纵横格线和数字资料构成。有些统计表需在表的下端增加注解,以说明资料的来源、某些指标数值的计算方法、填表单位和其他需要说明的问题。

总标题也称为统计表的名称,它用概括性的文字简单明了地需要说明统计资料时间、基本内容和范围。一般写在表的上部中端。横行标题通常用来表示各组的名称,反映统计表的主要项目,写在表的左方,纵栏标题是统计指标的名称,说明纵栏所列各项资料的内容,写在表内右上方。数字资料也称指标数值,它是统计表的具体内容,列在各横行标题和各纵栏标题的交叉处。注意数据0和无法取得(not available)该项数据(n.a.或NA)应该区分开。任何一个具体数值都由横行标题和纵栏标题所限定。结构如表2.6所示。

表2.6      2007年中国国内生产总值的构成─→总标题

img11

资料来源:《中国统计年鉴》,2008年。

2.统计表的内容

统计表分为主词栏和宾词栏两部分。主词是统计表所要说明的对象。它可以是各个总体单位的名称、总体各个组或全部,一般列在表的左端,宾词是说明主词的各种指标,包括指标名称和指标数值,一般列在表的右端。必要时,主词和宾词可变化位置。

3.编制统计表时应注意以下几个问题。

A.统计表的栏数如果过多,要加以编号,主词和计量单位各栏用(甲)、(乙)、(丙)等文字编写;宾词指标各栏则用(1)、(2)、(3)等数字编号。

B.表中数字要填写整齐,位数对准。当不存在这项数字时,用符号“-”表示;当缺乏某项资料时,用符号“…”表示。

C.数字资料要注明计量单位。当全表只有一种计量单位时,可把它写在表头的右上方。如果表中需要分别注明不同单位时,横行的计量单位可专设“计量单位”一栏,纵栏的计量单位可与纵标题写在一起用小字标明。

D.统计表的文字、数字要书写工整、清晰,数位要对齐。

E.某些特殊资料需要说明的,应在表的下方加以注解;数字资料要在表下说明来源,以备查考。

4.频数分布表示方法

在统计分组的基础上,可以将总体所有单位按某一标志进行归类排列,并显示其次数,这样获得的分布称为频数分布或次数分布。通过对零乱、分散原始资料的整理,可形成一系列反映总体各组之间单位分布状态的数列,即分布数列。分布数列有两个基本要素:总体按照某标志划分的组,各组所出现的单位数。分布数列按分组变量的标志分,有品质分布数列和变量分布数列,后者又分组距分布数列和单变量值分布数列,组距分布数列又可以分等距分布数列和异距分布数列。         表2.7就是等距组距分布数列。

表2.7          等距组距分布数列

img12

续上表

img13

列表法是用统计表来表示频数分布,包括累计频数和频率等。在异距分布数列中,各组次数多少受组距不同的影响,各组的频数可随着组距扩大而增加,因此一般要计算频率和频率密度。频率=频数/总合计数*100%,频率密度=频率/组距。

5.累计频数与累计频率

为了更清楚反映数据分布的特点,实践中常需计算累计频数或累计频率。编制向上累计频率(频数)分布的方法是,先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。向上累计频数(频率)表明某组上限以下的各组单位数之和。如由表2.8可见,90分(不含90分)以下为44个学生占88%;而80分及其以上为18人占36%。类似,向下累计频数(或频率)分布是,由标志值高的组向标志值低的组依次累计。

表2.8          学生成绩累计分布表

img14

*不包括70、80、90这一点。

二、统计图

统计资料主要的表述形式是统计表,但有时也用统计图表示。统计图比较直观地给出统计数据。统计图的绘制要求和统计表基本一致,应该具备图号、标题、单位、资料来源和必要的注释。常用的统计图有用于定类、定序尺度变量的条形图(Bar),其坐标是示意的。对于定类、定序尺度变量,一般使用直方图(Histograms)、折线图(Frequency Polygon)、圆形图(Pie)、累计图(Cumulative)和X-Y坐标图等多种。应该说明的是,条形图和直方图形状十分类似,其纵坐标都是频数。但是,直方图常用于定类、定序尺度变量,横坐标是连续的等距数量标志;条形图则是示意性的。

利用Excel软件,就很容易制图。具体是先输入数据,一般在第A、B列分别输入X、Y变量值;其次,打开“Excel”软件的“图表按钮”img15,选择合适的图形后按“下一步”按钮;再次,选择数据区间,即X轴、Y轴数据再后按“下一步”按钮;接着,输入X轴、Y轴标题、图表总标题后按“下一步”按钮;最后按“完成”键即完成。实际若需要,还可进一步完善修改。实践是最好的老师。值得注意的是,无论什么图形都应该输入轴标题变量,有些变量还需要输入变量的具体单位。

1.直方图或条形图

用直方形的宽度和高度来表示频数分布情况的图形。如根据表2资料可绘制直方图,如图2.4所示。绘制直方图时,横轴表示各组组限,左方纵轴表示频数或频率,若频数过多宜于频率表示。然后按分布在各组的频数及频率确定各组在纵轴上的坐标,并依据各组组距的宽度与频数的高度绘成直方形。其横轴竖条可以是连续的,也可以是连续的。在Excel软件中制图完毕后,左键双击竖条中间就可对竖条宽度及竖条间距离进行调整。值得注意的是,此类图必须标注横坐标和纵坐标,并且横坐标适宜采用等距坐标。

img16

图2.4 学生成绩分布直方图

2.折线图

若将直方图中每个长方形的顶端中点用折线连点而成,得折线图。如果不绘直方图,也可以用组中值与频数的坐标点连接而成。起点是在距左边最低组半个组距处的横轴上,终点是在距右边最高组半个组距处的横轴上,它表示频数分布的图形。根据表2.7的资料可绘制折线图,如图2.5所示。

img17

图2.5 学生成绩分布折线图

3.坐标图(散点图)

以上几种图形仅能给出一个变量的分布情况,如果同时需要表达两个变量的情况,通常需要用变量X、Y坐标图来表示。若有A、B、C、D、E学生语文成绩X分别为86、78、92、84、76,这些同学的数学成绩Y对应分别为96、72、88、65、82。如图2.6所示。

img18

图2.6 学生成绩分布坐标图

4.茎叶图(Stem-and-leaf Display)

对于未分组的数据如何进行合理分组,首先要展示数据,展示数据常用的是茎叶图和箱线图,遗憾的是EXCEL软件无法显示这两个图,而SPSS软件能够非常方便地显示这些图。

茎叶图是通过茎和叶(如图2.7)来充分显示数据信息。根据表2.8整理的茎叶图,变量数据的大小=树茎*树茎宽度+树叶大小;相应频数等于叶片多少*叶片代表的个案。第一行代表有4个数据,分别为50、52、58和59;60~69有13个样本,分别是……。变量值等于为61的就有2个,……。于是,计算机可以通过树茎宽度和叶片的代表性进行调整,大部分数据的具体细节(大小和频数)都可以用此图表示出来,如每个叶片代表10个数据,树茎宽度为100。

img19

图2.7 学生考试成绩茎叶图

img20

树茎宽度10,每个叶片代表1个个案。

图2.8 学生成绩茎叶图的解释

茎叶图最大的优点是,不管数据样本量多少,都能将其分组情况清楚显示,使之容易地进行数据分组。

5.箱线图(Box Plot)

箱线图(如图2.9所示)是由一组数据的5个特征值绘制而成,其分别是最小值、四分之一位数、中位数、四分之三位数和最大值。这些箱线图可以是水平方向的,也可以纵向分布的。可以是一组数据,也可以是多组数据。右侧是美国某公司474个职工的年经济收入分布情况,结合具体数据,可以获知该公司职工四分之一位数(2.40万美元)、中位数(2.89万美元)、四分之三位数(3.71万美元)。

img21

图2.9 五特征值绘制的箱线图

三、劳伦茨曲线

劳伦茨曲线(Lorenz Curve)是美国著名统计学家劳伦茨在1905年创立的一种反映工资与收入差异状况的图示方法。劳伦茨曲线图是一个正方形的直角坐标系图形。图中的X轴和Y轴均为“0~100%”的百分比累积值。X轴为人数的百分比累积;Y轴为收入额的百分比累积。它们的累积顺序都是由低收入向高收入的做递增累积。

下面利用一个例子来看劳伦茨曲线图的绘制及其涵义。

例,某公司共有10名职工,2010年底有10万元奖金要在他们中间分配。他们分别提出了三种不同的分配方案:

方案1:平均分配,每人1万元;

方案2:10万元全部奖给经理;

方案3:共分为5个档次分配如下:

一等奖3万元1人;二等奖1.5万元2人;三等奖0.8万元3人;四等奖0.6万元2人;五等奖0.2万元2人。

首先,将上述三种分配方案的分配结果分别编制为双向累积百分比数列。累积是从低收入依次向高收入累积。计算结果列于表2.9。

表2.9          某公司年终奖金分配方案

img22

根据上表的数据,可绘图如下:

方案一为图2.10中的平直斜线,被称为绝对平均方案;方案三沿着X轴(人数百分比)到100%,然后直线(奖金百分比)往上到100%,被称为绝对不平均方案;方案二是带正方形的淡曲线,其和斜线之间面积为A;方案二与方案三之间的面积为B。在图2.11中,方案一,方案二,方案三所示曲线都被称为劳伦茨曲线。曲线对现实分配的平均程度可有很好的描述,当它越向平直斜线(方案一)靠近,说明现实的分配平均程度越高。反之,当它远离平直斜线接近方案二时,则说明现实分配的差异扩大了。由此,后来人们将方案一与方案三之间的图形面积,称之为不平等面积,通常用大写字母A表示;方案二与方案三之间的图形面积B,则称为平等面积,用大写字母B表示。并在此基础上发展出一种更为精确的不平等分配测量方法——基尼系数。

img23

图2.10 某公司年终奖金的劳伦茨曲线图

基尼系数(Gini Coefficient)是意大利经济学家基尼于1912年在劳伦茨曲线的基础上推算出来的。基本公式为:G=A/(A+B)

由上述公式可看到,基尼系数即为劳伦茨曲线图中不平等面积A与绝对平均线下面三角形面积的比值。它的优点是将直观的形象转变为精确的数值,使对分配平等程度的测量更为精确、更易比较、更为方便。所以,这一系数在世界上广为流传,为许多国家政府、国际组织和学者所采用。

当公式中的A等于0时,意味着曲线图上曲线C与曲线A相重合,即社会收入分配处在绝对平均状态,此时基尼系数也等于0。当公式中的B等于0,则意味着曲线图上的曲线C与曲线B相重合,即社会收入分配处在绝对不平等的状态,此时的基尼系数等于1。在通常情况下,基尼系数是一个大于0,小于1的数值,其取值范围为“0≤G≤1”。基尼系数越小,说明收入分配越平均;基尼系数越大,说明社会分配越不平均。按照国际标准,基尼系数在0.3以下为最佳状态,0.3~0.4为偏高状态,0.4以上为警戒状态,0.6以上则属动乱随时可能发生的危险状态。在实际运用中,基尼系数的具体计算公式为:

(1)当使用未分组资料时,可采用下列公式:

img24

式中 G:基尼系数;n:总人数;Y:总平均收入

Yi:自低收入向高收入顺序排列的第i个人的奖金收入或收入百分比。

用前面奖金分配例子的方案三数据计算:

表2.10          某公司年终奖金的基尼系数之一

img25

将表中计算结果代入公式得:

n=10,

Y=100000/10=10000(元)

G=1+1/10-2*353000/(100*10000)=0.393

(2)当使用分组资料时,采用下列公式:

img26

式中 G:基尼系数;Xi:第i组人数比重;n:分组数(或人数)

 Yi:第i组奖金收入比重;Si:第i组递增累计收入比重

将前例数据计算如下:

表2.11          某公司年终奖金的基尼系数之二

img27

将表中计算结果代入公式得:G=0.194+2*0.6-1=0.394。

由此可见,这种分配离散程度偏高,十分接近警戒状态0.4。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈