首页 百科知识 对“六人普”数据处理方法的探讨

对“六人普”数据处理方法的探讨

时间:2023-10-21 百科知识 版权反馈
【摘要】:为了提高普查数据处理质量,本文根据嘉兴市数据处理工作开展的情况,拟对数据处理各环节进行探讨,以期总结经验,发现问题,供以后普查借鉴。本阶段的主要任务是对第六次人口普查数据进行初步汇总,按照国家下发的快速汇总工作细则,并结合嘉兴市的实际情况编写快速汇总程序,以普查小区为单位进行逐级过录、审核和汇总。
对“六人普”数据处理方法的探讨_2010浙江人口普查技术业务工作文集

对“六人普”数据处理方法的探讨

许 峰

第六次全国人口普查作为一项重大的国情国力调查,后期数据处理工作起着承上启下的关键作用,也是普查的关键环节。此项工作虽然没有人口普查登记阶段涉及的范围广,但它是人普后阶段的一项重要工作,是对各阶段工作成果的验证,是保证人口普查工作能够圆满完成的不可或缺的部分。为了提高普查数据处理质量,本文根据嘉兴市数据处理工作开展的情况,拟对数据处理各环节进行探讨,以期总结经验,发现问题,供以后普查借鉴。

一、嘉兴市人口普查数据处理工作整体情况

根据国家普查方案和省级数据处理工作细则,本次普查数据处理主要分为前期准备阶段、人户不一致核对阶段、快速汇总阶段和正式普查数据处理阶段。

1.前期准备阶段。本阶段的主要任务是做好各项准备工作,主要包括:制定人口普查数据处理工作方案和实施细则;制定有关数据处理的各类标准;研制数据处理软件;数据处理工作试点;数据处理人员的技术培训;数据处理设备采购及工作环境准备等。

2.人户不一致核对阶段。本阶段的主要任务是对户口整顿资料进行数据处理,通过编写人户不一致核对比对程序,将村(居)内跨普查小区、乡(镇、街道)内跨村(居)、县(市、区)内跨乡(镇、街道)和市内跨县(市、区)的人户不一致人口进行比对,筛选出疑是重复记录和未比对上的人的记录,下发至县(市、区)进行确认和修正。

3.快速汇总阶段。本阶段的主要任务是对第六次人口普查数据进行初步汇总,按照国家下发的快速汇总工作细则,并结合嘉兴市的实际情况编写快速汇总程序,以普查小区为单位进行逐级过录、审核和汇总。

4.正式普查数据处理阶段。本阶段的主要任务是完成第六次人口普查数据的录入、审核和汇总。正式普查数据处理阶段历时近5个月,按照国家和省级“统一组织、光电录入、分级处理”的原则,以县级为单位对全市所有普查表数据进行了数据处理工作,组织全市数据处理人员约170人,共完成18886个普查小区的204.89万张普查表的光电录入工作,并对全市188.67万登记户、593.24万登记人口和2.45万死亡人口进行了数据编审工作。

二、数据处理中存在的问题

从目前县、市一级使用情况看,光电软件和数据编审软件操作方便、易上手,界面友好、直观,流程清晰、明了。但是在具体使用过程中还存在一些问题。

(一)普查软件不够完善,增加了审核工作量

一是光电扫描软件中的流程控制模块有待加强。替扫和补扫功能的操作步骤过于繁琐,且替扫时候普查图像的查找和勾选容易出错,建议将替扫和补扫功能集成到任务管理员的权限和界面中,且图像选择界面提供户编号进行参照。

二是校对或者校验模块中缺少部分数据完整性审核的要求。比如哪些指标为必填项或者哪些指标为不可填写项进行一个初步的检查,当然检查不能过于繁琐,只是一些基础的初步的审核要求,过于复杂的审核在扫描阶段也将影响工作效率。

三是任务分发模块缺少一个分发状态的界面,即哪个任务分发到了哪个账号。由于不能明确任务分发的详细情况,在操作人员较少而用户账户较多且表较少的情况下,经常发生表被分发至何处难以查找的现象,以至于只能删除账户来减少账户数量,一定程度上影响工作效率。

四是在数据处理软件中审核改错时,图像调阅速度较慢。虽然国家在编审阶段下发过图像查询补丁,但是打上补丁后,在市级调阅图像时仍然速度缓慢,特别是五人以上同时调阅图像时,有时候显示一张图像要30秒以上时间甚至是直接没响应,这已经严重影响了数据处理工作的进度。

五是数据处理软件中数据查询功能存在BUG。市级导入长表全部数据后,在数据查询中导出全市数据时,会丢失部分数据或是出现导出数据混乱的情况(即导出数据中有重复数据),导致导出的查询数据无法使用,只能通过数据上报中的导出功能导出数据再通过其他程序软件进行查询。

六是数据处理软件说明中缺少必要的函数说明和描述,以致在数据查询和增加审核条件时要自我摸索,大大增加了审核条件编写时间,影响了工作效率。

(二)数据处理时间较紧,质量控制缺乏统一制度

人口普查属于大型普查,不论从国家还是到省级,在数据处理的时限上,要考虑到各地人、财、物可支配度,地方财力的不平衡,会导致整体工作进度的不统一。本次普查数据处理从上门登记到数据上报只有短短的5个月时间,与“五人普”相比,数据处理时间缩短了有半年多,一味地“赶进度”和随意地更改上报时间,势必增加数据处理人员的工作强度,造成数据质量的下降。

(三)数据处理工作流程安排上存在问题,短表、长表、死亡表未同步录入和审核

人口普查数据录入,应该采用短表、长表、死亡表同步录入的方式,不应该分步进行。分步进行的最大问题是难以进行表间审核,特别是短表数据上报后不能修改导致后期许多表间审核错误不好处理,如长表抽样后户编号与短表的衔接问题,死亡表死亡人口与短表、长表的户编号、人数对应问题。同步录入虽然用时较长,工作量比较集中,但是可以较好地解决表间问题,能提高数据质量,还有利于数据汇总,这种方式更为科学合理。

三、改进人普数据处理的实践

数据处理工作的成败决定着普查的成功与否,关系着普查资料审核工作量和对普查资料的开发应用,所以在工作进度安排时要有全局观念,在设计程序时要以减轻基层工作量为出发点。

(一)数据处理与业务密切结合

在数据处理各个阶段,计算机技术和业务是紧密联系的。如果没有业务支持的数据处理软件,必然会导致审核关系存在漏洞,甚至错误。所以在普查早期,嘉兴市县两级人普办数据处理人员都提早参与,熟悉普查业务及表内的各种逻辑关系,这样在进行数据处理与自行开发审核程序、汇总程序时,可以贯彻为业务服务的主导思想,关注的是如何让程序准确地实现尽可能多的业务规则,且可以及早发现问题及早解决,完善程序。

(二)确保普查数据质量是数据处理工作的核心任务

数据质量是人口普查也是统计工作的重中之重,普查所有的工作都应该围绕这个基本点展开,数据处理工作当然也不能例外,数据质量这条生命线必须牢牢抓紧,不可有丝毫松懈。人口普查数据处理从某种程度上来说是对普查登记、编码等各阶段工作质量的检验和反映,同时也是发现普查数据错误、纠正错误的过程。我市在数据处理的各个阶段通过应用自行开发的审核程序和在国家程序中增加审核条件等方法,从技术关严格控制普查数据的质量。

1.人户不一致核对阶段。在此阶段,数据处理人员对户口整顿数据进行了整理、分解和比对,并以此制定了符合嘉兴市实际的人户不一致核对工作方案,为人户分离核对工作提供了技术保障。在对户口整顿数据进行整理、分解和比对过程中,发现了以下几类问题:一是户口整顿数据库中有存在空记录、姓名中含有逗号分隔符以及数据信息不全的问题;二是户口整顿中的指标概念与人普上的是有区别的,如RLB(人类别)中12和21代表县级以内的流动人口,14和22代表跨县级的流动人口。而这次人户一致比对的内容就是这部分人员。另外公安上人户不一致的判断是以建筑物为界定标准,而人口普查的以普查小区为界定标准;三是户口整顿存在重登现象,如我市同一人存在3条以上记录的达7万多条;四是RLB(人类别)错误较多,不能完全按照RLB进行核对,如同一人登记既有人在户不在记录,又有人户一致记录;五是人户分离人口需核对的目的地无地址代码或无详细地址等;六是公安用的村级地址代码与统计用地址代码是有区别的,存在一对多的情况,即一个公安的村级地址代码对应多个统计用地址代码。

2.快速汇总阶段。由于国家、省级人普办下发的快速汇总程序普及到普查区存在困难,我市人普办结合本市实际情况编写了一套EXCEL快速汇总录入程序。EXCEL快速汇总程序具有通俗易用的特点,基层普查人员比较容易接受,而且一般的工作人员不需培训就会使用EXCEL。在编制EXCEL快速汇总录入程序时,先在EXCEL录入程序中控制H3与R6、R7的平衡,R6、R7、R8的取值范围等逻辑关系,在县(市、区)快速汇总数据上报后,我市编写了快速汇总EXCEL表转换程序,将所有的基层EXCEL录入表直接转换成数据库文件,再对基层数据库进行汇总审核,对存在的错误及时要求县级人普办进行核对和纠正。在审核过程中主要存在以下两类错误,一是出生死亡人口漏填问题,引起出生死亡人口数量小于我市出生死亡人口台账数据的错误;二是户编码重复问题,在基层数据库文件中查询发现存在因录入错误引起的户编码重复现象。

3.正式普查数据处理阶段。在正式普查数据处理阶段,为确保普查数据质量,在国家和省办下发的光电扫描程序和数据处理程序的基础上,通过自行编写审核程序和添加审核条件的方式加强普查数据的质量控制。

一是在光电扫描阶段编写编码空值审核程序。此次人口普查中,编码和数据处理工作几乎同时进行,导致在光电扫描阶段仍存在诸多编码问题。在光电扫描阶段,除了一些正常的扫描前审核外,如检查普查表是否潮湿,是否平整折叠,是否使用铅笔写字,是否有杂物,是否使用修改液,是否字体太大超出定位框等等,还对普查表扫描进库后的数据进行了审核。这是因为光电扫描程序无法校对校验普查表项目的漏码、多码以及错码等情形,将给日后的数据编审工作带来困难。针对国家光电扫描程序校对校验过程中的不完善之处,嘉兴市编写了编码空值审核程序,通过对普查表所有项目的审核,将普查表的必要性审核差错率控制在3%以内,使全市的数据处理质量基本上在光电录入阶段得到了全面控制。

二是在国家数据处理程序中新增审核条件123条,其中短表6条,长表117条。在国家数据处理程序下发以后,嘉兴市人普办组织数据处理人员和业务人员仔细研究国家数据处理程序中的审核关系,发现国家审核关系还存在一定的漏洞。结合嘉兴市的实际情况,通过数据编审程序对短表增加6条审核条件,其中包括对高、低年龄段的受教育程度、高年龄段的人数等逻辑关系的审核;对长表增加了117条审核条件,其中反映住房指标的审核有11项,户记录指标的审核有5项,年龄指标的审核有14项,行、职业指标审核的有49项以及其他人记录逻辑关系审核的有38项。在各类审核条件的设置中不仅考虑单项指标的完整性,同时注重各项指标之间的逻辑关系,如户记录中出生、死亡人口的数量应与人记录中0岁组的人数对应;住房内厕所使用抽水式的,却无管道自来水的审核;年龄与受教育程度及工作情况的审核;行业与职业相互对应关系的审核等。

三是编写普查数据汇总程序。在普查数据上报省后,嘉兴市着手组织编写人口普查数据汇总程序,通过对汇总表的交互审核、排序审核和比较审核,从宏观上查找出普查数据的问题所在并及时进行纠正。这不仅弥补了微观数据审核的不足之处,同时也为后期资料开发工作的顺利开展奠定了坚实的基础。

四、对下次人口普查数据处理的几点建议

1.数据处理人员要及早参与人口普查工作。早期参与可以让数据处理人员有更多的时间熟悉各项业务细则,少走弯路,更好地为后期数据处理和程序开发服务。

2.审核条件应与方案普查表同时下发。审核条件的及早下发不仅可以让数据处理人员提前熟悉审核关系,还可以更早地研究和增加符合本地实际的审核条件,弥补国家和省下发审核条件的不足。

3.汇总程序应及早下发,加强自定义汇总功能。为充分发挥人口普查资料的时效性,满足资料开发工作的需要,应该尽早下发普查汇总程序。同时进一步加强自定义汇总功能,最大限度地满足各地政府和社会对普查数据的需要。

嘉兴市人口普查办公室

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈