首页 理论教育 抽样调查方案的设计

抽样调查方案的设计

时间:2023-02-27 理论教育 版权反馈
【摘要】:②对采集的网页进行人工自动标引,以Word文本格式保存。人工自动标引是一种不依据词表,由标引员根据文献主题内容自主拟词标引的标引方法。④用Access设计表格、保存文章标题,第一、二、三段首、尾句,首段,尾段,html文本标记中所含的自动标引词数,并在网页中把标引词标记出来,用Word方式保存。表5-3 自动标引词频统计样例⑤进行词频统计以及调查统计数据的分析。
抽样调查方案的设计_文本自动标引与自动分类研究

5.2.1 抽样调查方案的设计

本设计分经济、教育、文学、心理四个学科类别,随意抽取1 800篇中文网页进行人工自动标引、人工打分、词频统计,并进行调查统计数据的分析、研究,旨在得出网页文章内容与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段,其他段以及html标记等12个标引源的关系,得出12个标引源的主题表达能力的先后顺序,并为之设计适当的权值,以便为提高文本的自动标引提供一科学合理的位置权重方案。

(1)数据来源概述

抽样数据的主要来源见表5-1。

表5-1 主题表达能力的抽样统计数据来源一览表

img32

注:网页获取日期为2001/7/10至2002/5/1。

(2)基本步骤

①利用ROBOT程序或者人工采集训练用网页,并以HTML格式保存。

②对采集的网页进行人工自动标引,以Word文本格式保存。人工自动标引是一种不依据词表,由标引员根据文献主题内容自主拟词标引的标引方法。需对文献进行主题分析,把分析出的主题概念转换为若干主题词,标引时也需遵循一定的标引规则,但无需查看词表。现以URL为“http://202.84.17.28/csnews/20010705/89514.htm”的网页为例进行说明。

URL:http://202.84.17.28/csnews/20010705/89514.htm

标题:麦当劳计划在日本发股票

标引:麦当劳股票发行麦当劳连锁店汉堡包市场日本

③用Access设计表格,对每个网页的12个标引源:网页题名(title项)、文章标题(bt)、第一段首句(ds1)、第一段尾句(dw1)、第二段首句(ds2)、第二段尾句(dw2)、第三段首句(ds3)、第三段尾句(dw3)、首段(sd)、尾段(wd)、其他段(qt)、html标记(html)进行人工打分,并统计每个网页的自动标引词数(cs)、文章字数(zs)以及段落数(dls)。其中,其他段主要是指第二段;HTML项主要记录的是〈/B〉、〈/STRONG〉等超文本标记。具体格式见表5-2。

表5-2 自动标引标引源统计表样例

img33

注:打分规则如下:

1分:能很好地反映文章的主题;2分:基本上能反映文章的主题;

3分:只能反映文章的局部主题;4分:只能反映文章的个别主题;5分:不能反映主题。

④用Access设计表格、保存文章标题,第一、二、三段首、尾句,首段,尾段,html文本标记中所含的自动标引词(包括其同义词)数,并在网页中把标引词标记出来,用Word方式保存。具体格式见表5-3。

表5-3 自动标引词频统计样例

img34

⑤进行词频统计以及调查统计数据的分析。

全文步骤用流程图表示如图5-1所示。

img35

图5-1 统计工作流程图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈