5.2.2 抽样数据的统计分析
(1)样本分类统计分析
首先,就样本的规模做了简单分类统计,见表5-4、表5-5。
表5-4 文章字数分布情况统计
注:字数单位每个定义为2个字节。
其中,网页文章最长篇幅为12 474字,最短为22字;段落数最长为53段,最短为1段。文本以500字以上(占86.82%),10段以下(占69.33%)为主。其中,在经济类样本中,文本为500字以上的占85%,接近平均水平,10段以下占78.44%,高于平均水平。
表5-5 文章段落数分布情况统计
注:本书所说的段落是指正文的自然段,不包括标题、文摘等。
从文章字数分布情况和段落数分布情况可以看出,无论从字数或是段数上来说,调查中网页的选取都比较全面,没有遗漏某类文章,为后续的分析提供了科学的依据。
(2)总标引词数统计
对1 800篇样本的手工自动标引结果进行初步统计,得到总标引词数统计表,如表5-6所示。
表5-6 自动标引词数统计
由表5-6可以看出,标引词总数为10 340,平均标引词数为5.74个,即自动标引的平均深度接近6个词,文本最大标引深度值达14,最小标引深度值为2。若以经济类样本作为考察对象,标引词总数则为4 720个,平均标引词数为5.24个,标引深度略低于总样本平均标引深度,文本标引词数最大为10,最小为2。
(3)标引源人工打分结果统计分析
对前面所说的12个标引源的人工打分结果进行统计、整理,得到标引源人工打分结果统计表,如表5-7所示。
表5-7 标引源人工打分结果统计
由表5-7得出12个标引源主题表达能力的先后顺序及对应的分值如下:
bt>html>sd>ds1>title>dw1>qt>wd>ds2>dw2>ds3 >dw3
1.767 1.959 2.014 2.386 2.458 2.465 2.884 2.898 2.989 3.071 3.081 3.302
根据以上结果,可以将12个标引源按其表达主题的能力分为三个等级:
第一等级:bt、html、sd;
第二等级:ds1、title、dw1;
第三等级:qt、wd、ds2、dw2、ds3、dw3。
在试验中,以经济类样本中的300篇文本作为考察对象,可得相应的统计结果如表5-8所示。
表5-8 标引源人工打分统计(300篇经济类文本)
同样,根据表5-8,可以将标引源按照主题表达能力排序,结果如下:
sd>bt>html>ds1>title>dw1>ds2>dw2>wd>ds3>qt>dw3
同样也可以根据结果将标引源划分为以下三个等级:
第一等级:sd、bt、html;
第二等级:ds1、title、dw1;
第三等级:ds2、dw2、wd、ds3、qt、dw3。
可以看出,以300篇经济类文本作为样本进行分析,得出的标引源主题表达能力排序和分级与将1 800篇不同类别文本作为样本得出的结果很接近。
同时,两者也有一定的差别。如前者的第一等级中,排序为bt、html、sd,而在后者的第一等级中,排序为sd、bt、html;前者的第三等级中,排序为qt、wd、ds2、dw2、ds3、dw3,而在后者的第三等级中,排序为ds2、dw2、wd、ds3、qt、dw3。对于两者存在的差异,不做继续讨论,因为这不影响标引源权重方案的确定。
●html页面的title项主题表达能力有限
一般来说网页题名和文章标题是一致的,但根据表5-7的统计,bt>title,文本篇名(bt)为1.767,网页title项为2.458。原因是有的网站网页题名和文章标题完全不符,网页题名为网站或专栏的名称,借此提高网站的知名度。
●html标记项对Web文本挖掘有重要意义
从统计结果可以看出,html标记项很重要,它的分值为1.956,小于title项的分值。说明超文本标记对计算机自动标引是很有意义的,在考虑权值分配的时候需要给予足够的重视,充分加以利用,不应筛掉。
●每段的首句的主题表达能力强于该段的尾句
从ds1>dw1、ds2>dw2、ds3>dw3可以看出,对于一般的文章来说,每段的开头总是比结尾重要,说明中文文章的中心句一般在段首,设置权值时要予以考虑。
●首段相对尾段和其他段相比,具有较强的主题表达能力
从sd>qt>wd可以看出,首段(sd)表达能力比其他段以及尾段强,且sd被划分到第一等级中,说明了它具有很强的主题表达能力,这和写文章习惯于“开门见山”、“开宗明义”有关。
(4)样本标引词数统计分析
将自动标引的结果进一步整理,得到标引词数分布情况(只考虑12个标引源中的10个标引源),如表5-9所示。
根据表5-9,若仅以词频作为主题表达能力的影响因素,可得其中10个标引源的表达能力关系如下:
sd>ds1>dw1>wd>bt>ds2>ds3>html>dw2>dw3
其中经济类样本的10个标引源的表达能力关系如下:
sd>wd>ds1>dw1>bt>html>ds2>ds3>dw2>dw3
由于标引词的个数与文章的篇幅有关,所以上表的统计结果没有纵向比较的意义,只需做平行的比较,作为人工打分数据统计的必要补充。
表5-9 样本标引词数分布情况表
注:词频统计是对标引源内所含关键词进行词数统计,包括标引词及其同义词、准同义词等。
从表5-9可以看出:
①sd>wd,这印证了上面人工打分数据统计的结果,一般著者都习惯开篇点题。
②从ds1>dw1,ds2>dw2,ds3>dw3可以看出,每段的段首句都比段尾句能反映主题,段首一般是该段的中心句。权值设计时应该注意这一点。
③bt、html项的值分别为2.09、1.84,因它们的平均长度比首段、尾段文字短得多,相对来说,它们平均标引数应比实际统计数高得多,这说明了这两项的主题表达能力很强。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。