上海市六年级标准化数学成就测验的编制和数学能力结构初探
韩 哲
[摘 要] 以上海市六年级数学课程标准和教学目标为严格参照,编制了上海市六年级标准化数学成就测验,目的是为学生的综合心理评估提供学业评估方面的标准化工具,也能够减轻学生数学学习的压力和负担;同时初步分析六年级学生的数学能力结构,以期对数学教学以及认知心理学研究有一定帮助。编制完成的上海市六年级标准化数学成就测验具备较好的内在一致性信度、复本信度和良好的内容效度,效标效度尚可。探索性因素分析初步得出了上海市六年级学生的数学能力结构的三个基本组成因子:“数学知识与技能的综合运用”、“数学决策和空间想象”和“数学知觉和理解”。这一结构在一定程度上符合前人的研究结果,对这一结构也采用了创新的理解方式,即用动态的眼光来理解六年级学生的数学能力结构。
[关键词] 数学成就测验 六年级 信度 效度 因素分析 数学能力结构
一、引言
数学教学对于中小学教育来讲是很重要的一块内容,但在进行教学评价时,多数采用教师自编测验,这样就无法做到严格的标准化以及保证测验的准确性和有效性。国内目前标准化的数学成就测验较少,尚缺乏专用的数学成就评估与诊断工具,各学校之间的横向比较也存在一定的困难。而且,目前在中小学中普遍存在对于学生的要求高于数学课程要求的现象,于是各类教辅书籍、辅导班应运而生,使得多数学生不堪重负。
作为成套数学成就测验课题的子课题,本研究严格按照六年级的教学大纲和课程标准编制数学成就测验,以此来评估六年级学生的数学成就水平。采用在课程结束后进行评价的方式,学生不必为了一个好的分数而去进行题海战术,只要达到测验要求,即具备了六年级的数学能力,切实减轻学生负担。同时根据测验结果分析上海市六年级学生的数学能力结构,为六年级教材制定和教学提供依据。
(一)成就测验
成就可以概括为经过一定的学习和训练所获得的知识和技能,它是在一个比较明确的、相对限定的范围内的学习①。
成就测验(achievement test)又称教育测验、学绩测验,是测验实践和应用中最常见到的,通常用于测量个体对某种知识、技能的掌握水平,一般都是团体测验②。成就测验有若干种分类方法,按其内容和功能可分为两大类:一是对多种科目的知识和技能的“学习程度”的测量,也叫普通成就测验或综合成就测验;另一类是特殊成就测验,也叫单科成就测验。特殊(单科)成就测验又有两类,一类只用于评定某一成就的高低,类似于学校的期中、期末测验;另一类就是诊断测验,其功能主要是测量出个人在某学科方面的优点和弱点,用以判定其学习困难所在,以作改进之用。成就测验还可以分为常模参照测验和标准参照测验。在教育中经常使用的学期末和学期中的考试,要考查学生对某阶段的学科内容掌握情况,常采用标准参照测验,而如果通过测验要考察被试在某一团体中的地位,则常采用常模参照测验。另外,成就测验还可以按其内容和使用年龄分为一般成就测验和广泛成就测验。本研究所编制的成就测验为标准化成就测验,也就是使用高度标准化的手段来编制,并且可以使用标准化手段来评价测验结果的成就测验。本测验也是一个标准参照测验。
成就测验是现今使用最广泛的一种认知性心理测验,不仅各年级、各学校都频繁使用,而且在招工、提干、晋职等各个社会生活领域也广泛使用③。由此可见,成就测验的功能主要是:反馈功能,测验的反馈信息可以调节教师的教学活动;评价功能,成就测验不仅可以评价学生,还可用于评价教师,评价一所学校或一个地区的教学质量;不但可作跨区域的横向比较,还可作跨年代的纵向比较;研究工具,成就测验对于教育理论的研究和发展具有重要作用;人才选拔与安置,成就测验可以用来作为选拔人员的工具,也可以用来确定一个人是否达到了从事某项活动所需要的最低熟练水平,还可对人员进行分类,把每个人都安置到适当位置上去④。
在美国,标准化成就测验被广泛应用于大多数学校中,作为提高学生在数学、自然科学、阅读等学科成就的工具⑤。同时也有许多著名的测验,例如斯坦福成就测验(SAT)、加州成就测验(California Achievement Tests,CAT)、都市成就测验(Metropolitan Achievement Tests,MAT)、全国成就测验(National Achievement Tests,NAT)、全国教育发展测验(National Education Development Test,NEDT)等。以上都是著名的团体测验,常用的个别成就测验有广泛成就测验(Wide Range Achievement Test,WRAT)、皮博迪个别成就测验(Peabody Individual Achievement Test,PIAT)、韦氏个别成就测验(Wechsler Individual Achievement Test,WIAT)、库夫曼教育成就测验(Kaufman Test of Educational Achievement,K-TEA)等。单科成就测验主要有Nelson-Denny阅读测验(Nelson-Denny Reading Test,NDRT)、Gates-MacGinitie阅读测验(Gates-MacGinitie Reading Test,GMRT)、现代数学理解测验(Modem Mathematics Understand Test,MMUT)、数学渐进成就测验(Progressive Achievement Tests in Mathematics,PRTM)等。流行的诊断测验有KeyMath基本数学诊断量表(KeyMath Diagnostic Inventory of Essential Mathematics-Revised,KDIEM-R)、斯坦福数学诊断测验(Stanford Diagnostic Mathematic Test 4th Edition,SDMT4)、加州数学诊断测验(California Diagnostic Mathematics Tests,CDMT)等⑥。
(二)我国数学成就测验研究
成就测验在我国的发展相比西方较为落后,而我国的考试却有着悠久的历史。在春秋战国时期,我国就开始在较大范围内选拔官吏。到了隋代,科举制度正式确立。这一制度发展到明清,已经非常严密和完备,分为院试、乡试、会试和殿试等各个阶段⑦。这从一定程度上说明我国的考试制度源远流长。然而在成就测验方面,我国以引进西方的测验居多。
范晓玲和龚耀先(2008)查阅了1978—2003年初公开出版的国内刊物——《心理学报》、《心理科学》、《心理发展与教育》、《心理学探新》、《中国心理卫生杂志》、《中国临床心理学杂志》等文献30多种。根据他们的不完全统计,在412篇测量文献中,内容主要集中在测量理论、能力、个性、人事(职业)和临床方面。统计结果表明,其中一半以上研究是对国外心理量表的修订和试用报告,而学业成就测验(除高校人学的选拔性考试外)的研究相对较少⑥。虽然已经有学者关注成就测验的研究和编制,但是其发展仍然相对滞后。
马惠霞等(2003)⑧编制了一个包括多学科、适用于多年级、团体施测的多重成就测验(其中包括数学分测验)。他们采用国家统编教材为效标与中学专科教师教学经验相结合的策略收集项目和编制测验(分甲、乙套)。在太原市附近的阳泉市进行了第一次预测,调整题本后,又在太原市和太原市附近的忻州市共施测1 448人,取得了太原地区中学各年级和大学一年级各分量表的粗分均值。但是,这一测验并不是完全根据教学大纲测量学生对教材内容的掌握情况的,因而其项目与一般成就测验项目所考察的学科内容有一定差异。主要原因是这种多重成就测验比较庞大和复杂,无法面面俱到。另外,教学内容本身也限制了测验的标准化和精细化,因为某些科目(如历史)的测验项目无法涵盖整个学科。
范晓玲和龚耀先(2005)⑨⑩进行了四到六年级多重成就测验的编制,包括语文和数学两大分量表。数学分量表中,又包括数概念、数运算、数应用、几何、数推理五个分测验。经过专家评定和施测后得到了比较好的信、效度数据。研究者还通过探索性因素分析确定了言语知识、数算、数形、数理、记忆等五个因子。
国内关于数学单科成就测验的研究并不是很充分,而且,大多都是跨年级、多学科的多重成就测验。一些硕士论文尝试编制了数学单科的成就测验,但是它们中的多数都是跨年级或者没有严格按照课程标准和教学目标,也就是严格按照学生所学的内容来编制的。所以,目前国内尚缺针对某个年级,并且严格按照课程标准和教学大纲编制的数学成就测验。
本研究编制的标准化数学成就测验,建立在研究六年级数学课程标准和教学目标的基础上,通过大范围搜集测验项目以及大样本施测的方法,保证了测验项目的有效性和综合性,也有助于数学能力结构的探究和分析。
(三)数学能力结构
能力是指人们成功地完成某种活动所必须具备的个性心理特征。克鲁捷茨基在他的《中小学生数学能力心理学》中给出了学龄期数学能力结构的一般轮廓,总结如下:
获得数学信息:对于数学材料的形式化的知觉能力,掌握题目的形式结构的能力。
加工数学信息:
1)在数量关系和空间关系方面,以及在数和字母符号方面进行逻辑分析的能力;用数学符号进行分析的能力。
2)对数学对象、关系和运算的迅速而广泛的概括能力。
3)简缩数学推理过程和相应的数学运算系统的能力;以简缩的结构进行思维的能力。
4)数学活动中心理过程的灵活性。
5)力求解法的简洁、清楚、经济和合理。
6)迅速和随意的改变心理过程的方向,从正向思维序列转向逆向思维序列的能力(数学推理中心理过程的可逆性)。
保持数学信息:数学记忆(对数学关系、类型特征、论证或证明的模式、解题的方法以及探索的原则等的概括记忆)。
一般的综合性成分:数学气质。克鲁捷茨基的解释是数学能力结构中的各个成分都是密切联系、相互影响的,它们集合起来形成单一的综合系统,成为数学能力中的一种与众不同的特征群,这就是数学气质。
国内的相关文献中,孙敦甲将数学能力结构总结为:
认知方面的能力:
1)数学能力(特别是数学思维的批判性);
2)数学学习心理活动的分析能力(数学思维活动与非智力心理活动相结合的分析);
3)数学教学方案的设计能力(围绕着以培养能力为主的教学目的);
操作方面的能力:
4)数学语言表达能力(抽象的语言与形象的语言);
5)数学教学的情感表达能力(求知探索的情感与对学生期望的情感);
6)调动数学学习积极性的能力(数学教学中的人际关系能力);
监控方面的能力:
7)数学教学过程中的观察能力(获取反馈信息);
8)数学教学过程中的判断评价能力(迅速、正确的判断与评价);
9)数学教学过程中的应变能力(对数学教学过程的及时调控)。
以上这两种提法,都是建立在经验基础上的。比如第一种,主要是按照学生从信息接收、加工和保持这一过程来进行阐述;第二种提法相对较为具体和细化,但是缺乏一定的实验依据。另外,这两种提法,都比较细化。而实际情况告诉我们,这些数学能力的组成结构之间相互关系是比较紧密的,可能存在更高级的因素。
成就测验所测的是学生的实际能力。而实际能力正是研究者所关心的。因为本研究的成就测验严格按照六年级数学课程标准和教学目标编制,其要反映的,正是学生在获得学校的教学之后所发获得的数学实际能力,即数学知识和技能。另外,六年级学生的数学能力结构应该与上文中所列举的数学能力结构有相符的地方,但可能得出的是一个更为粗略的结构。
(四)研究目的和意义
本研究的目的是编制一套上海市六年级(初中预备班)学生适用的标准化数学成就测验,同时,根据适用所得数据,进行因素分析,探讨六年级学生的数学能力结构。
编制本套测验的意义在于:首先,如果要评价一个学生的心理状态,那么评估他/她的学习成绩也是重要的一部分,在这种情况下,就适用本套测验。另外,本测验也可作为选拔、诊断等多种用途。由于标准化和统一性,测验结果适合进行跨学校的比较,也可以用来在同一学校或地区不同学生之间的纵向比较。同时,也可通过测验的结果来评价一个学校的教学质量。
如果此类数学成就测验能够普及,那么势必能够减轻学生的课业负担,有利于学生的身心健康发展。
数学能力结构的分析,能够为教育者提供参考,更好地改进教育方式和教学材料,也能对认知心理学关于数学学习的研究产生一定的积极作用。
二、方法和过程
针对上海市六年级(初中预备班)学生,严格按照其数学课程标准和教学目标的要求,搜集和自编数学成就测验的项目,形成初测验(由上、下两学期组成,分别分为甲、乙两式)并小范围施测。根据经典心理测量理论进行项目分析,在不影响测验综合性的基础上筛选和修改项目。
同时,请上海市各中学中的资深数学教师作为专家,填写测验项目和知识点的匹配程度表,然后根据上述两项工作来筛选和修改题目,形成正式测验。
正式测验形成后,在全市各区县的中学中选取被试进行正式施测,搜集数据,进行统计分析并给出信效度指标。
之后,选取其中的一批被试完成平行测验(即原来完成甲式的被试现在完成乙式,反之亦然),并给出复本信度数据。
最后,将测验分成若干个分测验并对数据进行探索性因素分析,分析六年级学生的数学能力结构。
(一)测验项目的确定和测验形式
刘晓陵老师深入研究了六年级数学课程标准和教学目标,并且给出了搜集测验项目的指导意见。根据大纲,每一个知识点都具有相应的学习要求,从低到高大致分为知道、理解、掌握三个不同级别。
在此基础上,通过网络、教辅书籍和自编题目等途径,广泛搜集、整理,确定一系列覆盖所有知识点(少数较为简单,学习要求为“知道”的知识点除外)的项目。第一学期甲乙两式各104项,第二学期甲乙两式各114项。
本测验为团体测验,一般以班级为单位进行。这样,既易于管理又能节省时间。采用纸笔测验的形式,直接将答案书写在试卷上相应之处。指导语为:“本测验是为了了解各位同学的数学学习情况以用作心理学研究,测验得分与大家的期末成绩无关,希望大家认真、诚实地完成测验,不要紧张。”
(二)测验编制的步骤
1.第一次试用、专家评定和正式测验定稿
在2008年5月,于上海市闵行区莘光中学六年级四班进行测验的第一次试用。共获得38份有效数据。根据这些数据进行项目分析,计算每个题目的难度和鉴别力,供筛选和修改项目。
同时,编制测题与目标匹配程度评定表,邀请5位具有多年教学经验的专家参与对测验初稿的评定。要求专家对每个项目于知识点的匹配程度做五级评分,1级表示最小匹配程度,5级表示最佳匹配程度。专家对每个项目的评定结果也作为筛选和修改项目的依据。最后形成正式测验。与此同时,根据专家评定得到测验的内容效度。
2.第二次试用和统计分析
2008年9月到10月,将正式测验在全市各个中学中进行试用,其中包括大同初级中学、光明初级中学、南汇区实验学校、南汇区教师进修学院附中、奉贤区教师进修学院附中、奉贤区奉城第二中学等学校。
由于本次试用的时间正处于第一学期,所以测验无法在本年级(六年级)施测(六年级学生刚刚升入六年级,没有掌握测验中要求的全部知识点),故选择七年级学生进行试用。
测验得到较大的有效数据量(六年级第一学期甲式:260份;六年级第二学期甲式:291份;六年级第一学期乙式:261份;六年级第二学期乙式:283份),从而有利于研究信效度等指标。
3.第三次试用
约4个月后,选取南汇区教师进修学院附中和南汇区实验学校的部分学生参加复本信度的研究,即这些学生中,在第二次试用时完成甲式的,本次试用完成乙式;在第二次试用中完成乙式的,本次试用完成甲式。
同时,获取南汇区教师进修学院附中学生六年级第二学期数学期末考试的成绩,用作效标效度的考察。
(三)数学能力结构分析
根据已有文献和测验项目的实际情况将测验分为8个分测验,将这些分测验得分使用SPSS 11.0软件进行探索性因素分析,探索六年级学生的数学能力结构。
三、结果与分析
(一)第一次试用,专家评定结果和正式测验的确定
1.鉴别力和难度
计算每个项目与总分的相关。
测验个项目的鉴别力并不十分理想,有不少“全对”的题目,甚至有负值出现,各个项目在鉴别力上的表现参差不齐,但这是测验本身的特点造成的,具体理由见下文讨论。
计算每个项目的通过率以反映项目的难度(数值越接近1说明难度越低),得到如下数据:
4个测验的总体难度表现较为一致,偏向较简单。这也是由测验的特点决定,具体见讨论。
表1 测验的平均通过率
2.内容效度
专家评定的平均等级总结如下,采用集中呈现的方式,对项目的得分情况有一个大致的了解。
表2 专家评定等级(第一学期甲式)
表3 专家评定等级(第二学期甲式)
表4 专家评定等级(第一学期乙式)
表5 专家评定等级(第二学期乙式)
由表中的数据可知,专家对测验的评定等级普遍较高,除了少数的项目外,绝大多数项目的匹配程度等级都在3级以上,其中,等级在1到2级之间的,四个测验中仅出现一题。说明测验项目对知识点的匹配程度较高,即测验具有较好的内容效度。
3.正式测验
根据项目分析和专家评定的结果,在综合考虑难度、鉴别力指数和匹配程度的基础上,进行筛选和修改题目,一方面提高测验的质量,另一方面可以减少题量,减轻学生在完成本测验时的负担。
最后,删除了第8、10、27、60、62、82、91、94、99、100题(第一学期);第7、17、21、35、38、39、75、91、94、100、103、106、108(甲式)、109(乙式)题(第二学期),98和99题合并为一题。由于甲乙两式为平行测验,为了保持两式的等价性,筛选和修改的项目基本相同(第二学期甲式的108题和第二学期乙式的109题略有不同)。对于一些没有删除但是专家评定等级较低的项目进行了修改。对于试用中发现的错误进行了修正,最终确定了92项目(第一学期)和100项目(第二学期)的正式测验。第一学期满分108分,第二学期满分134分。甲乙两式为平行测验。
总结已有文献中的分法和根据测验项目的实际情况,将测验分成了8个分测验(甲乙两式为平行测验,故分测验相同),分别为:“基本概念”、“命题判断”、“逻辑分析”、“数学符号的理解”、“基本计算”、“思维转换”、“数学应用”和“图形理解、判断和计算”。
如表6所示。各个分测验所包含的项目(甲乙两式相同)如表7和表8所示。
表6 八个分测验清单
表7 各分测验的项目(第一学期)
表8 各分测验的项目(第二学期)
(二)第二次试用
1.测验的克伦巴赫α系数和测量标准误
计算各测验的克伦巴赫α系数,可以作为测验信度的指标。
表9 六年级各测验的内在一致性系数
因为克伦巴赫α系数会低估信度,而且所得的系数值较高(>0.9),故可认为本测验具有较高的内在一致性。
计算4个测验的测量标准误得到如下数据:
表10 六年级各测验的测量标准误
测量标准误的结果在全部都在1左右,也从侧面反映出测验具有较好的信度指标。
2.结构效度
通过各个分测验与总分的相关(内部一致性)来反映测验的结构效度。
第一学期甲式每个分测验之间的相关系数在0.387~0.633之间,且都为极其显著相关;分测验得分与总分的相关在0.543~0.903之间,且都为极其显著相关;
第二学期甲式每个分测验之间的相关系数在0.391~0.658之间,且都为极其显著相关;分测验得分与总分的相关在0.528~0.887之间,且都为极其显著相关;
第一学期乙式每个分测验之间的相关系数在0.339~0.642之间,且都为极其显著相关;分测验得分与总分的相关在0.645~0.865之间,且都为极其显著相关;
第二学期乙式每个分测验之间的相关系数在0.355~0.671之间,且都为极其显著相关;分测验得分与总分的相关在0.605~0.902之间,且都为极其显著相关。
综上,测验具有较好的结构效度。具体结果见表11至表14。
表11 分测验之间以及分测验与总分的相关(第一学期甲式)
** P<0.01
表12 分测验之间以及分测验与总分的相关(第二学期甲式)
** P<0.01
表13 分测验之间以及分测验与总分的相关(第一学期乙式)
续 表
** P<0.01
表14 分测验之间以及分测验与总分的相关(第二学期乙式)
** P<0.01
3.测验结果在不同学校之间的比较
本次使用涉及上海市的多个学校,在选取学校时,注意了不同学校的教学水平。那么在教学水平明显不同的两个学校之间的成绩如果出现相应的差异,或者在同水平学校之间不出现显著差异,也可以从一定程度上反映测验的效度。
表15 大同初中(A)与奉城二中(B)的T检验
每个测验的平均分大同初中都大于奉城二中,从T检验结果中可以看出,大同初中的测验成绩高于奉城二中,且都为极其显著差异。这一结果也与常识一致,因为大同初中是市区学校,且教学水平较高,而奉承二中是郊区学校,教学水平相对较低。
对于其他学校进行同样的检验,也发现不同教学水平学校的测验总分呈现出显著或者及其显著的差异,而对于教学水平相近的学校(例如奉贤区教师进修学院附中和奉城二中)总分没有显著差异。
4.测验结果在不同性别之间的比较
不同性别的T检验结果如表16所示:
表16 不同性别的T检验
结果可知,除了六年级第一学期乙式的测验结果外,其他三个测验在男女性别上均无显著差异。
(三)第三次试用
1.复本信度
因为在编制测验时,已经注意了甲乙两式的平行性,每个相应的项目都是测量同一知识点,也是同样的题型和大致相同的难度。所以认为甲乙两式是平行的。
在南汇区教师进修学院附中和南汇实验学校第三次试用后,对测验的复本信度进行了考察,结果如下表:
表17 测验复本信度检验
测验的副本信度在可接受的范围之内。
2.效标效度
获得南汇区教师进修学院附中4个班级学生六年级第二学期期末考试成绩之后,计算这些成绩与测验得分的相关,作为效标效度的考察:
表18 测验得分与学生期末考试成绩之间的相关
由结果可知测验的效标效度并不十分理想,具体见下文讨论。
(四)数学能力结构的初步分析
进过初步的观察,决定采用六年级第一学期甲式第二次试用的结果进行探索性因素分析。因为第一学期的测验项目所覆盖的知识点类型比较广泛,而第二学期过多的偏重于几何部分(S8:图形理解、判断和计算分测验的分支为48分,占总测验的三分之一以上),并且第一学期的分量表相对较为均衡。所以综合考虑下决定使用第一学期的数据。
1.探索性因素分析
使用SPSS的主成分分析法对六年级第一学期甲式的8个分测验进行因素分析。经检验KMO统计量的值为0.830>0.6,适合进行因素分析。巴特利球形检验给出的相伴概率为0.000,小于显著性水平0.05,拒绝零假设,认为适合因素分析。
主成分分析法的结果显示前2个主成分的特征根大于1,但是它们的累计贡献率仅为64.129%,所以决定加入第三个因素,此时累计贡献率为73.445%。也就是说,三个潜在的因素可以解释约73%的总方差。因为没有假设各因素之间相互独立,所以没有采用正交旋转,而是采用了斜交旋转,意图得到更准确的结果。
表19 旋转后的因素负荷表
经过斜交旋转后,各个分测验在每个因素上的负荷基本都有了明显的差异,因素1在S1、S3、S5、S6和S7上有较大负荷;因素2在S2和S8上有较大负荷;因素3在S4上有较大负荷。
2.因素命名
因素1和“基本概念”、“逻辑分析”、“基本计算”、“思维转换”、“数学应用”分测验上有较高负荷,这似乎说明概念的理解、计算、思维的可逆性、灵活性以及数学知识的运用之间有密切的相关,可以将因素1命名为“数学知识与技能的综合运用”,解释总分的51.44%;因素2在“命题判断”和“图形理解、判断和计算”分测验上有较高负荷,表明命题的判断能力和几何图形方面的能力有密切的关系,故可以将因素2命名为“数学决策和空间想象”,解释总分的12.69%;因素3在“数学符号的理解”分测验上有较高负荷,可以命名为“数学知觉和理解”,解释总分的9.32%。
综上,笔者认为上海市六年级学生初步的数学能力结构的三大基本组成因子为:数学知识与技能的综合运用、数学决策和空间想象以及数学知觉和理解。
四、讨论
(一)测验项目
1.测验项目的难度
本套测验的项目难度参差不齐,跨度比较大。这是为了本测验总体具有更好的区分能力。在最开始形成初测验时,每个知识点有大约2至3个项目(一些较为简单或者要求较低的知识点只有一题)。在筛选项目时,为了测验使得测验能够区别不同水平的学生,对于每个知识点,尽量采用删除中等难度项目,留下较低难度和较高难度两个项目的方法。所以,从项目难度的分析中可以看到难度的不稳定。
同时,测验中出现不少全部答对的超低难度项目,这跟知识点的难易程度有密切的关系。所以,整套试卷在难度上表现出跨度大且多数项目难度偏低的情况。
2.测验项目的鉴别力
在鉴别力的考察中,出现了一些全对项目,所以无法计算鉴别力,或者说是零鉴别力的情况,其中的原因已在上文有关难度的讨论中说明。
另外,除了全对的项目,还有一些鉴别力较低的项目已经在筛选题目中尽量删除。但是,有时候专家意见和项目的鉴别力不免产生冲突矛盾,比如某些项目专家评定等级比较低,而鉴别力比较理想。所以筛选项目时无法保证满足各项指标的要求。而且由于当时时间紧迫,搜集和编制项目时,并没有完全考虑到难度和鉴别力的问题,所以还是使得鉴别力不太理想。这一点在后续研究中,可以通过进一步修改题目来改善。
3.标准参照测验的项目分析
如前所述,本测验为标准参照测验,但是在项目分析的过程中,却采用了常模参照测验的项目分析方法。例如在分析项鉴别力时,采用了内在一致性的方法。从严格意义上讲,这是不合适的。但限于时间和资金,标准参照测验的鉴别力分析所要求的前测和后测在本研究中无法实现,所以采用了较为经济的常模参照测验的难度分析方法,可以说是一个权宜之计。虽然不太妥当,但对于项目的筛选和修改也起到了很大的积极作用,所以这里仍旧采用这种方法来进行分析。
(二)测验的信效度问题
1.测验的效标效度
在第三次试用时,考察了测验的效标效度,发现测验得分与学生六年级期末考试分数之间的相关并不是非常理想。可能的原因是本测验的编制按照严格的心理测量理论进行,同时考虑到了六年级数学的每个知识点,所以是较为全面和科学的。但是学生的六年级期末考试试卷是由教师编制,题量一般在25题左右,所以不太可能兼顾到所有的知识点。另外,测验的标准化程度也是一个问题。考察下来,发现全部都是正相关,相关系数都大于0.5(且都为显著),所以还是可以接受的。
2.测验的内容效度
本测验采用专家评定法来考察内容效度,并且得出了比较好的结果。因为在项目分析和筛选项目之前,就要求专家对每个项目进行五级评定。所以在筛选项目时,除了项目分析的结果,专家评定的结果也可以作为参考来使用,专家认为符合程度比较低的项目,也被列入删除的范围。但是由于上文中所提到的冲突问题,故无法做到完全删除专家评定等级较低的项目。
另外,本测验的内容效度可能被高估,因为专家对于测验项目的评定,是偏向于包容的,这也跟参与评定的专家的时间有限有一定关系。
3.测验的复本信度
测验的复本信度不太理想,原因可能是在进行第三次试用时,仅仅邀请了少量的学生参与,而且这些学生局限于两个学校(南汇区教师进修学院附中和南汇实验学校)。这一点可能影响到了复本信度的结果。
(三)六年级学生的数学能力结构
本文通过因素分析得出了六年级学生的数学能力结构:“数学知识与技能的综合运用”、“数学决策和空间想象”和“数学知觉和理解”三大组成成分。其中“数学知识与技能的综合运用”表示一个比较一般的,占主要地位的成分。其实它与引言中所提到的其他学者总结的能力结构有相似的地方,是较为一般的、较为综合的数学能力,也可以说是其他两个结构的基础。因为如果不具备数学知识与技能的综合运用能力,任何数学问题都无法解决。“数学决策和空间想象”更偏向于反映学生的思维方面。这里,空间想象中的想象并非天马行空那般自由,而是建立在严格的几何理论和规律上的想象,决策和想象都需要思维的参与。“数学知觉和理解”与数学信息的获取和加工有关。所以,数学的能力结构,不能简单加以静态的理解。实际上,它更像是一个动态的过程。
这一结果与克鲁捷茨基所总结的数学能力结构存在一致的地方。克鲁捷茨基所提的中学生数学能力结构主要为“获得数学信息”、“加工数学信息”、“保持数学信息”和“一般的综合性成分”。其中“获得数学信息”与“数学知觉和理解”,“加工数学信息”与“数学知识与技能的综合运用”和“数学决策和空间想象”较为相似,而“保持数学信息”这一结构实际上是贯穿于整个数学问题的解决过程中的。最后,“一般的综合性成分”所表达的意思与本研究的观点一致,也就是说,数学能力的各个组成成分之间并不是相互独立的,而是相互影响的。例如,如果“数学知觉和理解”存在障碍,那么肯定影响到后续的“数学知识与技能的综合运用”。所以总体上看,这两个数学能力结构存在相似之处。
(四)存在的问题以及下一步研究的展望
1.测验长度与测验时间
由于本测验力求覆盖六年级数学知识点的较大范围,所以测验项目数比较多(第一学期92题,第二学期100题)。这一问题在实际试用中使研究遇到了困难。六年级学生一般测验时间为60分钟,而完成本测验则需要花费2倍的时间,学校往往最多只能提供90分钟。
其次,在完成大量的题目时,学生的疲劳效应完全显现,出现了注意力分散、放弃答题甚至胡乱答题等情况,为后续的数据录入和统计工作造成了一定的困难。
所以,在测验长度和知识点覆盖面的权衡上遇到了一定问题,需要进一步解决。
2.抽样的问题
由于测验需要较长的时间,所以并不是所有的学校都愿意配合。在选取学校和学生的时候,仅仅是选择愿意配合的学校。在抽样方面,本文比较被动,因此样本的代表性可能会受到一定的质疑。
3.有关测验进一步工作的设想
上海市六年级数学成就测验已经基本编制完成,但是暴露的问题比较多,其中最为首要的是测验项目过多以及测验实施的不便利。造成这一问题的根本原因在于测验的长度较长,项目数量多,完成测验需要的时间量比较大。
针对这一情况,编制简化版和电子版的测验成为下一步工作的首要任务。有了本次编制的六年级数学成就测验,编制简化版的测验不会非常复杂。电子版测验的形成也并非难事。
由于本测验是标准参照测验,所以设立标准的问题也是下一步工作的重点。由于本测验较为全面和综合,所以暂时可以采用“60分标准”,也就是学生得到测验总分的60%就算合格,也可以在此组织专家进行新标准的设立。这一点在下一步工作中需要在更大样本中进行深入研究加以定夺。
最终本测验的目标是要形成一套有效的评估和诊断上海市六年级学生数学成就的工具。
4.数学能力结构的研究展望
通过探索性因素分析得出的上海市六年级学生数学能力结构,可以说是对前人所提出的数学能力结构的总结和验证。同时,也提出了一个新的理念,即要用动态的眼光看待数学能力结构,而不是静态地将其拆解。
进一步的研究主要应该聚焦在对这一能力结构的跨年级一致性和稳定的检验上,要在各年级广泛开展数学能力结构的研究,以验证、修改和完善这一能力结构。
五、结论
编制完成了上海市六年级数学成就测验,具备较好的内在一致性信度和复本信度,也具有很好的内容效度,效标效度尚可。
探索性因素分析得出了上海市六年级学生的数学能力结构的三大组成成分:“数学知识与技能的综合运用”、“数学决策和空间想象”和“数学知觉和理解”。这一结构在一定程度上符合前人的研究成果,同时又有所创新。
参考文献
[1]马惠霞,龚耀先.成就测验及其应用[J].中国临床心理学杂志,2003,17(1):60—62.
[2]郑日昌.心理测量学[M].人民教育出版社,1999:192—193.
[3]丁秀峰.心理测量学[M].河南大学出版社,2001:147.
[4]郑日昌.心理测量[M],湖南教育出版社,1987:291—292.
[5]C.S.Ding.,M.L.Davison.A longitudinal study of math achievement gains for initially low achieving students[J].Contemporary Educational Psychology,2005(30):81—95.
[6]范晓玲,龚耀先.标准化学业成就测验的发展与现状[J].教育测量与评价,2009,9:7—11.
[7]顾伟列.中国文化通论[M].华东师范大学出版社,2005:66—70.
[8]马惠霞,龚耀先.多重成就测验的初步编制[J].中国临床心理学杂志,2003(11),2:81—85.
[9]范晓玲,龚耀先.4~6年级多重成就测验的编制[J].中国临床心理学杂志,2005(13),3:253—257.
[10]范晓玲,龚耀先.4~6年级多重成就测验的编制Ⅱ:信度考验[J].中国临床心理学杂志,2006(14),6:553—555.
[11]范晓玲,龚耀先.4~6年级多重成就测验的编制Ⅲ:效度考验[J].中国临床心理学杂志,2008(16),1:5—8.
[12]刘丽娟.小学低年级数学成就测验的初步编制[D].湖南师范大学,2004.
[13]魏勇.小学三年级数学成就测验的初步编制[D].湖南师范大学,2004.
[14]柴彩霞.7~9年级数学成就测验的初步编制[D].湖南大学,2005.
[15]叶奕乾,何存道,梁宁建.普通心理学[M].华东师范大学出版社,1997:420.
[16]克鲁捷茨基.中小学生数学能力心理学[M].上海教育出版社,1983:431—432.
[17]孙敦甲.数学教学能力结构[J].心理发展与教育.1995(1):33—36.
[18]杨晓明.SPSS在教育统计中的应用[M].高等教育出版社,2004:283.
[19]宇传华.SPSS与统计分析[M].电子工业出版社,2007:511—511.
[20]范津砚,叶斌,章震宇,刘宝霞.探索性因素分析——最近10年的评述[J].心理科学进展,2003,11(5):579—585.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。