全国商务英语考试的信效度、 难度及趋势研究(8)
江进林
摘 要:本研究以全国国际商务英语考试(二级)施考以来(2009与2010年)的数据为基础,采用语言测试领域通用的计量方法对考试的信度和效度进行了分析。本文进一步运用多面Rasch模型考察了试卷各题项的难度分布情况,并对两年来考试中的各类统计量进行了比较。统计结果显示,整体考试及各个模块都具有良好的信度和效度,题项的难度分布也满足测试要求,两年的考试成绩稳中有升,符合预期的情况。本研究对如何解决个别题项存在的问题提出了建议。
关键词:商务英语考试 信度 效度 难度 趋势
1 引言
全国国际商务英语考试(二级)是商务部中国国际贸易学会与对外经济贸易大学联合开发的商务英语应用能力测试,主要考查考生在国际商务环境中应用英语的能力,考试对象为有意从事国际商务工作的高等院校学生、国际商务从业人员以及其他社会人员。本考试包括听、说、读、写、译五个模块,涵盖语言和商务知识两方面的内容,其中商务知识包括国际贸易、国际金融、国际市场营销、跨国公司管理、国际商法等六类,涉及国际商务中的主要业务,如国际贸易的基本概念、合同磋商的基本环节等。(王立非等,2009)本文以2009、2010年的考试数据为依据,对该考试的信度、效度及各题项的难度进行统计分析,并对两年的考试成绩进行比较,以检验其有效性、科学性和稳定性,提出改进意见。
2 研究问题与方法
本研究主要回答三个问题:1)商务英语二级考试的信度和效度;2)考试各题项的难度;3)两年考试成绩的走势。
合格的考试应该具有良好的信度和效度,且题项的难度分布合理。信度指测量结果一致、稳定,本研究采用分半信度与Cronbach’s Alpha来检验考题的内部一致性。效度指理论论据和经验证据对测试分数的解释、使用,以及建立在测试分数上的种种推断及行为决策的充分性和合理性的支持程度(AERE,1999;Messick,1989:13)。统计方面的效度分析可以检验测试内容的单维性和独立性,即测试的所有部分只测量单一维度的内容,且各部分测量的子内容各不相同(邹申,2005)。本研究采用题项与总分的相关度来考察题项是否有效地测量了所要考的内容。难度指题项能测量的量的多少,如果题项的难度太低,得分会聚集在高分端,出现天花板效应;如果难度太高,得分会集中在低分端,出现地板效应,这都是考试应该避免的情况。本研究采用项目反应理论(IRT)中的多面Rasch模型考察各题项的难度。其基本思想是:测试结果不仅仅反映考生能力,而是考生能力、考生类型、评分员严厉度、试题难度等多种因素(即多个面)共同作用的结果。该模型可以排除这些因素的影响,将考试中各个面的真实测量值分离出来,用同一个logit尺度进行估算。(Linacre,2011;江进林、文秋芳,2010;张新玲、曾用强、张洁,2010;何莲珍、张洁,2008;刘建达,2005)
3 结果与讨论
3.1 描述性统计
2009年有2 950名考生参加全国国际商务英语考试(二级),口、笔试均参加的人数为2 826,包括本科生1 233人、专科生1 593人。2010年口、笔试均参加的考生为2 670人,其中本科生1 137人、专科生1533人(9)。表1报告了考生成绩的描述性统计量。
表1 参试考生成绩统计
表1的数据显示,听力、阅读、翻译、写作与口语模块的最低分基本上为0,最高分都接近满分。除了口语外,其他部分的平均分仅略高于满分分值的一半,成绩偏低。口语模块的标准差最大,可能是因为口语的分值最大(50分),导致考生成绩的差异较大。此外,在分值相同的情况下,阅读的平均成绩高于听力,英译汉的平均成绩高于汉译英,且标准差都稍低,表明阅读的难度可能低于听力,英译汉的难度也低于汉译英。比较而言,2009年翻译的平均成绩高于写作,标准差稍低,而2010年正好相反,说明2009年翻译的难度可能低于写作,2010年则可能高于写作。
表2和表3分别报告了2009和2010年本、专科院校的成绩。
表2 2009年本、专科院校成绩统计
续表
表3 2010年本、专科院校成绩统计
分析表2与表3发现,本科院校各模块的成绩及总平均分都高于专科院校。独立样本t检验结果表明,两年考试中本、专科院校各模块的成绩及总成绩均具有显著差异,符合本科院校成绩好于专科院校的整体情况(10)。其中,2009年本、专科院校总平均成绩的差异高达9.15分,阅读和听力模块的平均分差异最大,分别达到2.51分和2.38分;口语平均分的差异最小,为0.94分。2010年本、专科院校总平均成绩的差异达到8.91,阅读和听力模块的平均分差异仍然最高,分别达到3.13分和2.97分;写作的平均分差异最小,为0.56分。
3.2 测试信度分析
本考试分为口试和笔试,口试为若干套平行试题,笔试包括A、B两份平行试卷,其主观题完全相同,客观题部分仅四个选项的顺序不同,可视为一份试卷。由于每名考生只考一次,适合采用分半信度和Cronbach’s Alpha来考察试卷信度。
在计算分半信度时,本研究采用按模块分半和按奇偶分半结合的方法,将听力、阅读、翻译、写作、口语模块内的题项都按奇偶数分为两半。需要注意的是,写作只有一道题,口语部分也只有四道题的总分,无法一分为二,因此笔者将写作和口语分别划入第一和第二部分。不过,这种做法会在一定程度上降低信度系数。统计结果表明,2009年考试的Guttman分半信度系数为0.771,2010年为0.732,表明试卷具有良好的信度。
笔者进一步计算了整份试卷及听力、阅读、翻译三个部分的Cronbach’s Alpha(11)。表4报告了整份试卷的分析结果(限于篇幅,仅报告信度系数低于0.1的题项)。表格第二列为题项编号,t64-67为口语总分;第三列为删除各题项后的总平均分;第四列为删除各题项后考试的方差;第五列为校正后的、各题项得分与总分的相关系数,与总分相关度较低的题项需要修改或删除;第六列为删除各题项后考试的Cronbach’s Alpha,如果比未删除时的Alpha值高,可以考虑删除该题项;第七列报告考生人数、题项个数及整体考试的Cronbach’s Alpha。
表4 整体试卷的Alpha系数
续表
数据显示,2009、2010年整体考试的Alpha系数分别为0.711、0.689,表明两次考试的内部一致性都较好。2009年第11、20、46、50题的得分与总分经校正后的相关系数低于0.1,第46、50题的得分与总分的相关系数仅为0.030和0.009。删除这两个题项后,试卷的Alpha系数与未删除时(0.711)相比并未显著提高,因而这两个题项可能需要修改。2010年第30、32、34题的得分与总分经校正后的相关系数呈负向,这是考试中不应出现的情况;第21、26、27、39、40、45题的得分与总分经校正后的相关系数低于0.1,表明这六道题与考试所测内容的关系不紧密。删除这九个题项后,考试的一致性保持不变甚至略有提高,因而这些题项可以修改或删除。两年考试中,口语部分的得分(t64-67)与考试总分经校正后的相关系数分别达到0.377与0.327,但删除该部分后,试卷的Alpha系数均明显高于未删除时,这可能因为口试为人工评分,信度较低,从而影响到考试的内部一致性。
表5报告了各模块的信度分析结果。限于篇幅,听力和阅读部分仅呈现信度系数低于0.1的题项。
表5 试卷各模块的Alpha系数
(注:.a 表明由于题项只剩一个,无法计算Alpha值。)
数据显示,2009年听力部分的Alpha系数为0.765,表明听力模块具有良好的内部一致性。第20题的得分与听力题总分经校正后的相关系数低于0.1,删除该题项后,听力模块的Alpha系数(0.768)与未删除时相差无几,可以考虑修改或删除。阅读部分的Alpha系数为0.719,也具有良好的内部一致性。第46题的得分与阅读题总分经校正后的相关系数呈负向,这种情况比较反常。删除该题项后,阅读部分的Alpha系数(0.730)略高于未删除时,说明该题项可以删除。第50题的得分与阅读题总分经校正后的相关系数仅为0.021,删除该题项后,阅读部分的Alpha系数(0.725)也略高于未删除时,可以考虑删除。翻译部分的信度系数为0.525,由于翻译只有两道题,Alpha系数达到0.525已属不易。两道题的得分与翻译题总分经校正后的相关系数都高于0.3,不需要修改。
2010年听力部分的Alpha系数为0.784,一致性良好。不过,第30题的得分与听力题总分经校正后呈现出微弱的负相关,第27题的得分与听力题总分经校正后的相关系数低于0.1。删除这两个题项后,听力部分的Alpha系数略有提高,可以修改或删除。阅读部分的Alpha系数为0.687,也具有较好的一致性。不过,第32、34题的得分与阅读题总分呈现出负相关趋势,第39、40、45题的得分与总分经校正后的相关系数低于0.1。删除这些题项后,阅读部分的Alpha系数均略高于未删除时,因而应该修改或删除。翻译部分的信度系数为0.432,属于正常现象。
综上所述,2009年考试的分半信度为0.771,Cronbach’s Alpha为0.711,2010年考试的分半信度为0.732,Alpha系数为0.689,表明两次考试都具有良好的信度。2009年听力、阅读、翻译部分的Alpha系数分别为0.765、0.719和0.525,2010年分别为0.784、0.687和0.432,表明这三个模块也具有良好的内部一致性。不过,两年的笔试中都有少数题项影响了试卷的内部一致性,需要修改或删除。口语部分也影响到考试信度,需要加强评分员培训,尽量避免分数受到年龄、评分经验等主观因素的影响。
3.3 测试效度分析
本文采用题项得分与总分的相关系数来检验测试的单维性,结果见表6。限于篇幅,表格仅报告题总相关不满足测试要求的题项。
表6 本考试题项的效度分析
续表
(注:**指相关性在0.01水平(双侧)上具有显著意义;*指相关性在0.05水平(双侧)上具有显著意义。)
统计结果表明,各题项得分基本上都与总分显著相关,表明考试具有良好的效度。不过,2009年第50题的得分与总分仅在0.05水平上具有统计意义,第46题的得分与总分的相关度低于0.1,表明该题项与考试所测内容的关系不密切,需要修改。2010年第34题的得分与总分具有显著负相关,第30题的得分与总分具有负相关趋势,第32题的得分与总分的相关度很低(0.006),不具有显著性,可见这三个题项与考试所测的内容不一致甚至不相关,影响到考试的效度,需要删除。此外,第21、26、27、39、45题的得分与总分的相关度低于0.1,这四个题项与考试所测的内容联系不紧密,需要修改或删除。
3.4 测试难度分析
本研究采用多面Rasch模型来分析题项难度。笔者将考生、考生院校、考生性别和题项设为四个面,采用John M. Linacre设计的软件FACETS来实施多面Rasch模型。考生院校分为本专科两种,项目有64个(口语总分为一个项目),第1−60个为客观题,采用二分选择模型(dichotomous model)进行分析,第61−64个为主观题,采用多元选择模型(polytomous model)进行分析,并且根据项目的分值使用10、20、50分制模型。由于FACETS要求使用整数数据,而口语总分中出现了0.5分,处理前需要四舍五入。
图1为2009年考试的分析结果。图中第一列为logit尺度,用于衡量各面的真实测量值,即采用将其他面的内部成分替换为0或各面平均值的方法,排除其他面的影响后得到的测量值。第二列为考生的真实能力值,按能力的高低自上而下排列,每个星号代表43个考生,每个圆点表示少于43个考生。如图1所示,考生能力值约在−3.17和+2之间。除了少数处于−3.17水平的低能力考生外,其他考生的能力分布比较均匀。第三、四列分别为考生院校和性别,这两个面类似于哑变量,不进入对其他面的分析,因而各成分的logit值都为0。第五列为题项的真实难度,按难度的高低自上而下排列。除了第13题外,其他题项分布比较集中。按惯例,占难度跨度前20%的题项不应超过所有题项的20%。图中的题项难度约在−5.17和+2之间,跨越7.17个logit,前20%约在+0.57和+2之间。该难度范围内的题项约有26个,超过题项总数(64个)的三分之一。因此,题项的整体难度可能需要下调。在选拔性考试中,更可行的做法是将第13题的难度上调,缩小所有题项的难度跨距。
图1 2009年考试的多面Rasch模型分析
图2为2010年考试的分析结果。图中第二列每个星号代表32个考生,每个圆点表示少于32个考生。考生的能力值约在−1.25和+1.875之间,分布比较均匀。第五列显示,题项难度约在−2.75和+2.25之间,没有出现难度很大或很小的题项。题项难度跨距的前20%约在+1.25和+2.25之间,该范围内约有九个题项,少于题项总数的三分之一(约13个),因此题项的整体难度合适。
图2 2010年考试的多面Rasch模型分析
从图1、2中只能看出项目难度的整体分布。统计数据还显示,2009年所有题项的平均难度为0,标准差为1.16;题项难度的分隔指数为23.33,分隔指数信度达到1,卡方检验的显著性为0.00。2010年题项的平均难度为0,标准差为1.11;题项难度的分隔指数为24.58,分隔指数信度达到1,卡方检验的显著性为0.00(12)。由此可见,两次考试中的题项难度都存在显著差异,符合测试要求。
表7进一步报告了项目的具体测量值。表格第三列为所有考生在某一项目上的总分;第四列为考生平均分;第五列为排除其他面的影响后模型计算出的考生平均分;第六列为项目的真实难度;第七列为模型的估计误差。第八列Infit MnSq为加权均方拟合统计量;第十列Outfit MnSq为未加权均方拟合统计量,这两个拟合数据反映项目对考生的区分情况,一般应在0.5−1.5的范围内(Linacre,2002)。第九、十一列的ZStd为呈正态分布的标准拟合数据,分别对第八和第十列进行补充。数据显示,2009年考试中第13题最容易,难度为−5.19;第18题最难,难度为1.96。2010年第12题最容易,难度为−2.79;第52题最难,难度为2.26。Infit和Outfit值显示,两年考试试题的拟合数据基本上在0.5−1.5之间,都能合理区分考生。只有口语总分(t64-67)的拟合统计量略大于1.5,表明该题的主观评分不稳定,出现了很多极高与极低分数,或者该题存在项目功能差异(Differential Item Functioning),有利于某个群体的考生,应由专家进行进一步判断和调整难度。
表7 项目难度测量结果
2.5 两年考试成绩比较
本研究的目的之一是了解考试成绩的发展趋势。图3显示了两年考试总成绩及各模块的对比情况。从图中可以看出,2010年考试的总平均成绩比2009年高,相差6.05分。在各模块中,差异最大的是写作,2010年写作的平均成绩比2009年高3.36分;其次是翻译部分,2010年比2009年高1.24分,其中英译汉和汉译英分别比2009年高0.52分和0.72分;2010年口语模块的平均成绩比2009年高1.05分。两年的阅读成绩基本持平,2010年比2009年略高。不过,2010年的听力成绩比2009年略低,相差0.12分。
图3 2009与2010年成绩比较
图4显示了本科院校的成绩走势。2010年本科院校的总平均成绩与各模块的成绩都高于2009年,总成绩高出5.63分,写作部分的平均成绩差异最大,高出2.78分,口语部分其次,高出1.19分。听力部分差异最小,高出0.37分。图5报告了专科院校的成绩走势。2010年专科院校的总平均成绩比2009年高5.87分,写作部分的平均成绩差异高达3.84分,翻译部分相差1.61分,2010年的口语和阅读成绩也高于2009年,仅听力部分的平均成绩比2009年低,相差0.22分。
图4 2009与2010年本科院校成绩比较
图5 2009与2010年专科院校成绩比较
参考以上数据可以发现,2010年的考试成绩与2009年相比稳中有升,其中进步最大的是写作,平均分提高了3分多,其次是翻译和口语,均提高了1分左右。阅读和听力提升幅度不大。本科院校2010年的总成绩与听说读写译五项技能的成绩均高于2009年,尤其是写作和翻译。专科院校2010年的总成绩和各模块的成绩也基本上高于2009年,写作和翻译部分提高的幅度甚至超过本科院校,不过阅读部分的提升非常有限,并且听力与2009年相比稍有退步。
4 结语
本研究对2009、2010年全国国际商务英语考试(二级)的成绩进行了描述性统计,考察了考试的信度、效度和题项难度,并对成绩的走势进行了分析,得出以下结论:1)两年考试的总平均成绩分别为90.08分和96.13分,听力、阅读、翻译与写作的平均成绩约为各自总分分值的一半,本科院校的总成绩与各模块的成绩都显著高于专科院校。2)分半信度、Alpha系数及题总相关数据显示,整体考试与各模块都具有良好的信度和效度。3)考试题项的难度分布均匀,且具有较好的区分度,符合出题要求。4)少数笔试试题与考试所测的内容联系不紧密,需要修改或删除。口试部分也影响到考试信度,需要加强评分员培训,确保始终采用统一的评分标准。5)2010年的成绩与2009年相比稳中有升,其中进步最大的是写作和翻译,阅读和听力部分提升不大,需要进一步加强。针对以上研究结果,今后应该在出题环节注意题项的针对性和难易度,改进口试的评分信度,以便进一步提高考试的信效度。
参 考 文 献
[1] American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. Standards for Educational and Psychological Testing[M]. Washington, D.C.: American Educational Research Association, 1999.
[2] Bonk, W. J. & Ockey, G. J. A Many-Facet Rasch Analysis of the Second Language Group Oral Discussion Task[J]. Language Testing, 2003, 20(1): 89-110.
[3] Linacre, J. M. A User’s Guide to FACETS: Rasch-Model Computer Program[CP/OL]. [2011-10-22]. http://www. winsteps.com/pdf.
[4] Linacre, J. M. What Do Infit and Outfit, Mean-Square and Standardized Mean?[J]. Rasch Measurement Transactions, 2002, 16(2): 878.
[5] Messick, S. Validity. In Lin, R. L. (ed.). Educational Measurement[M]. 3rd edition. New York: American Council on Education and Macmillan Publishing Company, 1989. 13-103.
[6] 何莲珍、张洁. 多层面Rasch模型下大学英语四、六级考试口语考试(CET-SET)信度研究[J]. 现代外语,2008,(4):388-398.
[7] 江进林、文秋芳. 基于Rasch模型的翻译测试效度研究[J]. 外语电化教学,2010,(1):14-18.
[8] 刘建达. 话语填充测试方法的多层面Rasch模型分析[J]. 现代外语,2005,28(2):51-63.
[9] 王立非等. 全国国际商务英语考试(二级)大纲[M]. 北京:中国商务出版社,2009.
[10] 张新玲、曾用强、张洁. 对大规模读写结合写作任务的效度验证[J]. 解放军外国语学院学报,2010,(2):50-54.
[11] 邹申. 语言测试[M]. 上海:上海外语教育出版社,2005.
(作者简介:江进林,对外经济贸易大学商务英语与跨文化研究基地研究员、应用语言学研究所研究员,博士,讲师,研究方向:语言测试、语料库语言学)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。