20世纪中后期,面对全球化市场的竞争和相应人群的能力诉求,各国对人力资源的要求日益提高,这进一步促使教育在各个国家的经济发展中承担越来越重要的作用。提升教育质量,成为各国经济领域越来越关注的话题。随着21世纪的到来,越来越多的国家意识到,相关、及时且适合的教育信息非常重要。相比于其他国家,本国学生的学习程度处于何种地位?本国的整个教育系统的运作效率和效能如何?在这方面,IEA有着不言而喻的优势,特别是在对学校学习模式或过程的测评及显现上有着丰富的经验。当时,基于上述认识,很多国家讨论重启IEA早期的工作,如SIMS。
与此同时,美国很关注本国学生在国际中所处的地位。1989年,美国国家教育最高层,包括美国总统及所有50位州政府首脑,共同宣布了美国教育的六个目标,其中美国政府将数学和科学作为教育优先发展的领域,指出:“在2000年,美国要在数学和科学学生成就上排名第一。”[2]对此,美国在1989年由国家数学教师协会(National Council of Teachers of Mathematics,简称NCTM)出版了学校数学的课程及评价标准,在1991年又出版了数学教育的专业标准等。相关政策及标准的纷纷制定,有力地保障了该目标的实现。当美国人意识到,上述设想中的IEA研究项目有助于通过国际层面的比较逐步推进其设定的目标时,马上就参与到了该项目中。该项目的研究经费是由美国教育部下属的NCES、 NSF及加拿大政府提供的。IEA将TIMSS研究相关的协调和管理全权委托给波士顿大学的TIMSS国际研究中心。该中心与加拿大温哥华不列颠哥伦比亚大学的国际协作中心,以及它的联系机构如澳大利亚墨尔本教育研究委员会、加拿大渥太华统计中心、德国汉堡IEA数据处理中心等保持着密切联系。上述机构主要负责数据处理等后期工作,整体形成一个具有国际性的工作团队,而TIMSS最主要的前期工作是课程分析,由美国密歇根州立大学负责,整个研究项目由NCES负责监控。无论是资金的投入,还是项目的管理,TIMSS都深深打上了美国的烙印。在TIMSS的形成过程中,由于美国的介入,美国IAEP测评对TIMSS也存在着影响。如同所指出的那样,IAEP有两个目标:其一是在国际比较研究中,利用NAEP的开发设计、测试材料及过程来减少时间和资金的花费;其二是允许一些感兴趣的国家在他们本国的测评项目中试验或使用NAEP的相关技术。应该说这些技术,特别是抽样技术及心理测量技术,对TIMSS的影响很大。
从TIMSS的发展轨迹来看,也不得不重视FIMS、 SIMS对TIMSS的影响,这些研究的相关内容概括如下。
(一)FIMS
FIMS作为IEA的基础性研究始于1960年,1964年正式测试采集数据。FIMS将数学成就作为因变量,对学校的输出进行比较调研。参与的12个国家几乎全部来自欧洲,而且都是高度工业化的国家。FIMS测试的国家样本来自两个群体:13岁为主体的相邻两个年级的学生(称为群体1)和中学最后一年的学生(称为群体2)。
FIMS开发的试题几乎全部是多项选择题,这些试题通过国际间的合作获得。测试建立了内容、认知、态度三维架构,内容涉及以下方面:对群体1数学学业成就的测查,包括数学基础、代数、集合、欧氏几何及解析几何等;对群体2数学学业成就的测查,包括数学基础、高等数学、代数、欧氏几何、解析几何、三角函数、概率和逻辑等。这些试题设计用来测试学生在各数学内容领域的五个认知水平上的成就。这五个不同层次的认知水平是:知识和信息、方法和技能、将数据转换为符号或反之、理解、创造力。伴随这些试题的,还有针对学生、教师、校长及教育专家的问卷,以便形成五种态度量表。学生的问卷内容集中于对教师的数学教学实践及结果有效性等方面的看法,同时通过教师和学校校长的问卷获取每个被调查学校的教学环境和一般教育项目的特性等信息。
对数学教育人员而言,FIMS得到了很多有趣的发现,如在任何国家的上述人群中,男生都要比女生表现好;在13岁的群体中,学生的数学成就与学生父母的教育水平呈正相关;在群体2,即参与国中学最后一年的学生中,该正相关性不存在;虽然在不同国家之间学生平均成绩的差异很大,但在同一个国家中学生的相应差异非常微小等。
总体而言,FIMS为各国之间更好地理解对方在数学教学和学习上的差异性架起了桥梁。该工作为进一步研究教师的教学和学生的学习之间的联系奠定了更扎实的基础。但是值得注意的是,到目前为止,现有材料并没有显示采样过程和回答率等细节,这也导致FIMS的结果,无论是所得数据的真实性,还是结果的有效性,都遭到了质疑。如由于各国的学制不同,对于中学最后一年的认定存在很大的差异,这直接造成群体年龄分布的巨大差异性,而最受非议的是它忽略了数学课程的因素。著名的荷兰数学教育家弗赖登塔尔指出,FIMS没能恰当地考虑学生是否学过那些正确回答各种测试题所必须具备的内容,即没能把课程作为一个变量。[3]此外,当时正处于欧洲总体经济和教育扩张的时期,各国教育系统变化较大,甚至出现一些结构性的变化,这也极大削弱了FIMS测试结果的影响。
(二)SIMS
与FIMS所处时代背景不同的是,20世纪80年代初期,石油危机对各国经济影响巨大。各国政府对于教育系统的经济效益越来越感兴趣。新公共管理理论逐步盛行,使得教育系统投入产出之间的关系、教育结果的效果等问题日益受到重视。1976年夏天,在新西兰教育部长菲利普斯(Roy Phillips)的提议下,美国伊利诺伊大学讨论了是否进行第二次数学研究,该提议被广泛接受,并认为此次数学研究应具有更广泛的世界性。该项研究最终在苏格兰圣安德鲁斯大学确定。与FIMS相比,为了有利于对更多数学团队进行有效指导,SIMS被设计用来对不同阶段的国际数学教育进行描述。基于这个大目标,测试结构发生了调整,主要是课程被纳入学生成就的影响因素之中。SIMS整体要回答如下三个问题。问题一:期望的是什么?或主观上强行需要执行的是什么?问题二:在学生的课堂上,老师教了什么?问题三:学生学到了什么?笔者针对上述问题,将SIMS测评框架呈现如图4-1所示。
图4-1 SIMS测评框架
SIMS采样的学生群体主要是:年龄在13岁0个月至13岁11个月的在校就读生为主体的相邻两个年级的学生(群体A),以及在中学最后一年且数学作为主要课程内容的学生(群体B)。
在课程分析中,SIMS建立了由内容和认知行为构成的二维网状结构。类似FIMS, SIMS的试题分布呈现了内容和认知水平两维框架,但具体内容的分类发生了改变。对于群体A,测试内容分五部分:算术、代数、几何、测量和描述性统计。对于群体B,测试内容分九部分:集合和关系、数字系统、代数、几何、基本函数和计算、概率和统计、有限数学、计算科学和逻辑。认知行为维度被分成四个部分:计算、理解、应用和分析。[4]二维的内容—认知行为网格架构也成为试题编制的基础。
与FIMS相比,SIMS在以下三个新方面做了工作:其一是对不同教育系统中的数学课程进行描述,并检查自1960年以来的变化;其二是对每个教育系统中的数学成就进行测量,并检测在不同维度上的强弱;其三是测量一整年的时间中数学成就的增长情况,并对不同教育系统中学生或班级的不同增长情况作出解释。
整个研究设计进行纵向比较,通过前测(在学年初)和后测(学年末)获得比较数据。参与国家可以参加两次测试,也可以仅仅选择后测。整个测试过程中,群体A的孩子参加针对这个群体的同一样试题测试,但是每个试题本中试题的位置并不相同。问卷仍然是集中调查学生背景、教师信息和学校信息。要求参与国家的学生回答率在85%以上。
应该说,SIMS对FIMS发现的一些问题,如课程作为学业成就的变量、学生的回答率、测试内容的分类等方面作了调整。这在一定程度上更加显现出FIMS作为一个国际研究项目试点的意义,而SIMS的调整也提高了结果的有效性,为TIMSS更大范围或更深程度的展开打下了扎实的基础。
与FIMS类似,SIMS也产生了一些结果。它对教师实践予以重视,结合对各个国家课程更仔细的审视,形成了很多超越过去的新发现。例如,在学生享有完成中学学业的机会上,各国之间存在很大的不同。这里显现的不同,不仅存在于发达与发展中国家之间,也存在于参加测试的发达国家之间;从数学或综合能力的角度测量,班级因素对学生成就造成的影响比较小;在测试的两个群体样本中,无论是相关概念还是内容,国家之间存在着很大的差异;与FIMS相比,性别差异没有那么明显。在一些参加测试的国家中,在某些测试领域,女性要比男性完成得更好。
总之,SIMS不仅为学生的学习发展提供了很有价值的信息,而且在教师实践、课程及学生发展之间的关系上提供了很有价值的信息。这里有一个重要变化:将学生的学习和教师的教学整合在课程概念之下,将课程作为影响学生学业成就的最大原因进行探讨。在更好地理解数学学习是如何发生的同时,探究哪些因素会促成学习的发生,并反过来指导数学教育,对各国反思自身教育系统中的相关因素起到了积极的促进作用。从这个意义上,SIMS是对FIMS的一次超越。IEA的目标又向前跨进了一步。
综上所述,对于FIMS、 SIMS的特点进行汇总,如表4-1所示。
表4-1 FIMS、SIMS特点汇总
注:“*”表示仅仅针对13岁为主要对象的两个相邻年级。
从这两个测试的发展来看,同样是将数学作为学业成就的代表来研究,同样是分析学校教和学对学生学业成就的影响程度,SIMS无论在目标还是框架设计及结果的显现上,都要比FIMS更具有“野心”,研究面更宽、更深,结果也更突出。这在一定程度上显现出,SIMS无论在考试管理、测量技术的使用上,还是在两者运用的有效衔接上,都有很大进步。这也为之后TIMSS的成功奠定了一个良好的基础,从框架设计、维度构建、试题表现和结果呈现上都能更好体现出测评的目标。但是作为跨国的比较研究,SIMS在题型的运用、不同群体的结果分析及对FIMS试题的沿用等方面仍受到质疑。[5]
(三)TIMSS
IEA的一个重要目的就是:利用对学生成就、参与度、态度及愿望的判断或测量,对教育系统中成功部分的构成因素及影响进行比较分析。与IEA研究相一致,TIMSS的基本目标就是加深对教育及教育过程中一系列重要影响因素的系统了解。[6] TIMSS每四年举办一轮测评。在几轮测评的相关数据信息完整记录的基础上,TIMSS进一步关注不同国家的数学学习在内容和认知层面上的发展趋势,这有助于各个国家的政策制定及相应教育改革政策的调整。
整个TIMSS的设计及实施经历了一段很长的时期。1988年启动计划,1990年召开第一次国家研究合作会议,1994—1995年进行数据采集,第一个报告在1996年公布,40多个国家、近50万名学生参加了数学测评研究。TIMSS将数学和科学作为两个测试领域,同时进行国际比较研究。它不仅成为世界上最大的国际教育比较项目,也是第一次同时进行国际教育间数学和科学研究的项目。1994—1995年是其第一轮测评,此后每四年举办一轮。TIMSS测评的影响力巨大,OECD在其2000年之前的《教育概览》中所涉及的教育结果领域的指标,都是直接使用TIMSS的相关测评结果。
TIMSS的组织机构也发生了多次变化。从1990年到1993年中,它由国际协调中心负责,协调员为教育专家罗比泰利。1993年后期改为由国际研究中心(International Study Centre,简称ISC)负责,首任负责人是学者贝亚托(Albert E.Beaton),其后由学者马丁(M.O.Martin)和穆利斯(Ina V.S.Mullis)负责,总部坐落于波士顿大学Lynch教育学院。2001年,IEA的另一个测评项目——国际阅读素养研究(Progress in International Reading Literacy Study,简称PIRLS)正式实施,2004年在管理机制上与TIMSS整合,形成IEA的TIMSS和PIRLS国际研究中心,负责人不变。
在早期的IEA研究中,为解释各国不同教育系统中学习结果的差异性,课程逐步成为其中一个重要的影响或解释变量。如在SIMS中,解释和分析跨国教学实践和学生学习结果差异的时候,课程的重要性得到了充分的体现。特别是,研究表明,测试中所显示的学生成就受到学生已学的机会或预设要学的影响较大。正是这个原因,让TIMSS继续将课程作为学生学业结果的重要影响因素。同时,鉴于TIMSS(1995、1999)考虑课程、教学与学生成果之间联系的研究目的,抽样人群分为三类,具体如下。
群体1:测试当年9岁学生所占比例最大的相邻两个年级学生。群体2:测试当年13岁学生所占比例最大的相邻两个年级学生,这与SIMS中的群体A一致。群体3含两个子群体。子群体3a:中学最后一年的学生;子群体3b:在数学和科学上有专长的学生。测试学生离开中学时在数学和科学上的相关能力,显然是件有价值也很有趣的事。无论这些毕业生升入高一级学校还是马上就业,各个国家都非常关注,并期望这些出自本国学校教育的毕业生能拥有一定的数学和科学素养来应对现代社会的挑战。当然,子群体3a的研究焦点还是即将完成中学学业的全体学生群体的数学和科学能力。此外,选取9岁的群体主要考虑该群体能够完成书写,选取13岁的学生则主要考虑参加测试国家的该群体大部分处于义务教育阶段结束。至于为何不以年龄来抽样,而是以年级来抽样,是因为课程是学生学业结果的重要影响因素。同时,选取两个相邻的年级,有助于进一步分析一段时间内学业成就的差异性。2003年及以后的TIMSS测试群体明确定位于4年级和8年级,这样做更有利于学校政策的制定和应用,因为4年级正处于小学教育结束阶段,8年级正处于初中教育结束阶段。[7]
TIMSS数学测评的研究设计,首先需要进行基础研究,包括课程的深入分析,以及教学条件、在校生中群体数学学习的机会和学生学习状况等。从国际研究的角度,TIMSS数学测评将用来详细描绘国际范围内数学上的教学和学习的各个方面,比如在所选择的年级层面研究数学的教学学习,教学和学习产生的组织和社会条件,呈现给学生学习内容的所需条件,教师的态度、评价、教学时间及学科知识,学生的学习成就、评价和态度,以及在学校就读期间,学生在学习成就、评价和态度等方面的改变等相关信息。
本书下述所涉及的TIMSS数学测评内容,主要针对群体2或8年级学生的情况进行说明分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。