几种科学评价方法

时间：2023-03-05 理论教育版权反馈

【摘要】：对学生学习问题的诊断性评定通过测验进行，这种研究着重于测验的结构和运用及对之作出解释。诊断性评定的总体方法基于教师的观察，对学生作业的分析以及成绩测验的结果，而不是着眼于特殊的评价工具。只有全面地检查学生，才可能评论产生学习问题的原因并作出准确的诊断。为了有效地将适应性测验用于诊断目的，必须增加用于作出诊断性决策的试题数。

第三节　几种科学评价方法

一、诊断性评定法

诊断性评定法是对个人能力剖析图（individual profile）进行审查并与某种常模或标准作比较的一种方法。诊断性评定是针对个人的，而诊断性评价（diagnostic evaluation）则针对学校的教学过程，如课程设置、教学大纲、教学管理等等。这两种工作的任务是确定学生或教学过程的优缺点。

对学生学习问题的诊断性评定通过测验进行，这种研究着重于测验的结构和运用及对之作出解释。掌握知识的测验（mastery tests）也可用于诊断目的，因为这种测验能反映出教与学的过程以及学生的成绩。最后，必须把评定弱智学生的诊断方法与评定一般的学习困难相区别。

在评价的过程中，对“诊断”一词有过许多不同的解释或比喻，但都不一定合适。当我们使用这个术语时，常常包含有医疗上的意义。设定一组目标，然后测量学生的实际成绩，检查和分析存在的差距，以便找出“疗法”或“处方”。有些文献则用另外的比喻，即与计算技术作对比。它把学习困难称为“程序故障”或“学生故障”。但并非所有的研究人员和教育工作者都同意这种比喻，因为学习上的问题往往也包含教的问题。因此，诊断就不能仅仅针对学生。存在学习问题的学生与病人有病是不同的，问题在于某种教学方法和学生的学习活动或认知风格存在不一致。这些问题很重要，对学生实施诊断测验与诊断性评定时必须牢记。

（一）诊断性评定

诊断性评定与总结性评定（如最低能力测验，期末考试或毕业考试）不同。总结性评定，形成性评定和诊断性评定之间的区别。在于所涉及问题的类型各不相同。总结性评定所关心的是最后成果，形成性评定是提供学生进步的描述，而诊断性评定描绘的则是学生成绩的轮廓。它考虑：

（1）预期成绩与实际成绩之间的差异。

（2）造成差异的原因。

（3）相应的补救措施。

诊断性评定的实施要求有明确的学习目标和应用某些评定技术。诊断性评定的总体方法基于教师的观察，对学生作业的分析以及成绩测验的结果，而不是着眼于特殊的评价工具。从这个观点看，学生学习困难的诊断不可能通过考核单个专门技能办到，应当提供学生的多科成绩。只有全面地检查学生，才可能评论产生学习问题的原因并作出准确的诊断。这种“个案研究”并不打算用于班级的每个学生，而只用于遇到学习困难的学生。通盘的检查是费时的，多数学生并不需要这类评定。

只有收集到完整的数据并对这些数据作出正确的解释时，诊断性评定才会有效。而有诊断者可能定出一组有限的学习问题，并把学生往这些问题上套，然后只开出熟悉的或现成的通用处方，这种做法是危险的，因为这样做对于诊断与治疗的有效性都是问题。因此，有必要针对具体情况对已有“处方”的有效性做进一步的评价。此外，在从总体上检验该模式的功效时，经验数据是需要的。

（二）诊断性测验

诊断性测验是向教师和学生提供关于他们优缺点的反馈，几乎所有测验均为诊断性测验。实际上，任何标准化测验的得分都能表示学生成绩，同时也能告诉教师：他的教学是否成功。虽然各个试题的测验可以告诉我们哪些答案对，哪些答案错，但是总分并不能提供有关特定困难所在及形成原因的任何真实信息。然而，现在的问题是大多数测验的目的并不是为了诊断。对于每一个教学目标，它们所用的试题太少；对错误答案的分析不能得出对学习问题的诊断。诊断性测验则可看成是现行教与学过程的一部分。为了使测验能用于诊断，应该作出专门的设计。

为了诊断目的而编制“好”的多项选择测验，必须有一个准则。和其他任何测验一样，需要有明确的学习目标，但每种测验都涉及十分具体的技能（如加、减等等），要从不同的角度来设计测验某个特定子技能的试题。每个试题都能为学生和教师提供信息，因为每个诱答项对指出学习困难和提出可能的治疗方案都有重要作用。这里要强调的是每个特定答案的意义和反应模态。总分没有实在的重要性或意义，在诊断性测验中猜测是不必要的，因为学生的猜测并不提供诊断和治疗所必需的具体信息。

关于能否将诱答项作为诊断信息源的问题存在着不同的意见，主要有以下三种观点。一种观点认为，选择某个诱答项对指出学习困难有其特别作用；而有学者则认为应从无限制问题（Openended questions）着手，分析各种回答，从而找出学生回答问题所遵循的规则；最后一种观点是，在适应性测验或顺序测验中要考虑的唯一信息是答案正确与否，认为分析学生的答案没有任何意义，从而对学生所给的答案不做任何分析。

在适应性或顺序测验中，后一个测验试题根据学生对前一个试题的回答情况而定。通常的情况是，如答对了就再给一个更难的试题，反之就给一个更易的试题。试题的确定并不取决于学生选了什么诱答项，而是根据答案的正确与否。这种类型的测验，通常由计算机执行，计算机记录下答案并确定一个试题。在这种测验中，内存试题的单维性要经过预先检验，而试题的确定则以难度为基础。最后，根据反应模式就可以估计出学习上的困难。

顺序测验或适应性测验存在着一个问题，即它只根据对某个单一试题的回答来作决策。然而，某些诊断特征却需要根据这些测验得出。这种测验的主要优点是能提高测量的精确度，因为每个人都接受一组与他的成绩水平相适应的不同试题。为了有效地将适应性测验用于诊断目的，必须增加用于作出诊断性决策的试题数。因为适应性测验具有易于适应学生成绩水平的灵活性，所以进一步发展它在诊断性评定中的应用是有潜力的。

另一个研究是试图解释为什么会产生错误，其方法是识别“错误概念”，或产生这些错误概念的“故障”。第一件工作是将问题分解为一些必要的子技能，以便为研究中的每一种技能构造一个“程序网络”（procedural network）。事实上，为了回答完成一个作业会有哪些正确的与不正确的方法，将技能分解成子技能是很必要的，诊断模型“必须包含所有可能被学生错误理解的知识，否则某些学生的错误概念就会超出系统的诊断能力之外”。第二件工作就是编制一组试题，以便有机会向学生显示所有需要鉴别的子技能。然后检查学生的答案，找出学生尚未回答的子技能。根据学生的“错误概念”，再提出第二组问题，并验证原来的估计。测验所获信息应该给出可能治疗方案。

这种方法已经得到实际施行，它使用一个“故障系统”（buggy system），即一种计算机对弈系统（多用于教师的培训）。计算机扮演学生的角色，教师必须识别学生所犯错误（或故障）的原因，并能复述这种错误。这样，教师就更易于找出学生学习困难的原因。很明显，根据这种模型，可以轻而易举地诊断单一的“故障”。但是，如果学生有“多种故障”，或者有不同的“故障”相互影响时，诊断就成问题。此外，如某些子技能可能的错误概念已从“程序网络”中删去，则有些反应模式可能被解释为随机错误。

进一步的研究发现可以开发一种模型来解决几百个“故障”——这种情况在所研究的技能变得更复杂时可能产生。当可能出现几百个“故障”时，概率模型看来更适合于检测异常的反应模式。布朗和伯顿的模型表明，学生即使运用了“错误规则”，他也可能给出正确的答案。通过引入个体一致性指数（Individual Consistency Index，简写为ICD）来改进这个模型。总分低而个体一致性指数高，就表示学生正在用错误规则来解答问题。这个指数可作为一种信号，用以指出哪些学生需要治疗和更精细的诊断，他们还用试题反应理论来说明这种情况，所得的数据是多维的。换句话说，这种测验是在不同的维向上进行测量以便检查学生是否掌握了技能。这项研究成果不但对诊断性测验，而且对一般测验都具有意义，它指明了检验构念效度（constructvalidity）的重要性。

不是所有“故障”都会以同样方式影响学习过程，但是有关“故障”或错误概念的类型还是应该研究的。此外，为治疗这些诊断出来的学习问题所采取的教学方案并非都是可行的。在作出结论前，应简要地分析一下“掌握学习”的测验技术，以便把它们作为诊断手段使用。

（三）掌握学习法

在这种模型中，测验并非是作诊断使用，但实际上还是具有这种功能。

这包括在学习队伍中作用“形成性”测验或“掌握知识”测验，通过对照“掌握学习的标准”来测定学生各项成绩。对学生反应模式的检查能提供有关学习水平的信息，指出学生是否需要更多的练习或其他教学方法。掌握学习领域中的某些理论家坚决主张，形成性测验的结构应以某种学习理论为基础。

用这种不仅能鉴别学习问题还能识别发生问题的原因的方式来设计测验时，基础理论是有用的。

掌握知识测验和诊断性测验的不同之处并非总是明显的。由于“诊断”这个术语用在众多的不同方面，因此它的应用一直存在着混乱。例如，苏格兰教育研究理事会拟定的诊断性评定模型与掌握学习模型几乎没有什么不同。前一个模型用的是按教育目标分类设计的标准参照测验。这些目标（或预期的结果）直接与课程联系。为评定掌握程度而设计模型时，不必考虑为检测学习困难的潜在原因提供信息。因此，尽管这些模型标榜为诊断性模型，但它并不具有多少诊断特性。

形成性测验或掌握知识测验与诊断性测验有些相同的目标。不同点之一可能在于它们的构成方式。如上所述，掌握知识测验是与学习理论相适应的，而大多数的诊断工具是用来检验所假设的学生解答问题时可能遵循的错误规则。掌握测验与教学方法相关，它用来评定学生的学习，并向学生和教师提供有关技能掌握程度的反馈。这种方法对所有学生来说可能是不够的，对某些学生还要对他们技能的掌握加以诊断。这就需要有能够较好地解释问题的更为精练的手段。这些无需包括在掌握学习计划之中。一般说来，所需信息决定所使用的测验类型。假如教师想知道谁掌握了某种技能而谁没有掌握，那么，几乎任何测验工具都会满足这种要求。然而，如果认为部分知识是重要的，认为详细地知道学生所犯的错误能帮助教师改进教学法，就需要多种多样的测验和更精练的测验工具。

（四）结论

诊断性评定可用各种方式进行，可从全面的评定到专门技能的细致诊断。可以按照各种情况的特定要求来确定利用哪一类评定更为合适。其他因素，如时机和成本效益也会对决策有影响。假如某些学生学习困难是由于发育晚的影响，那么深入细致的诊断就没有必要，也不会有效。

某些学习问题，虽然它们的发生是暂时的，但对它的诊断有可能导致持久的“标志”，即使学生困难已不复存在，但“标志”仍然保留。研究表明，教师的期待会影响他们对学生的态度和行为。

最后一点是关于诊断性测验所根据的假设，首先是学习可“分解”成一组离散的子单元或子技能。其次是可以编写出能精确地和有效地测量这些子技能的试题。上述所有诊断测验模型均以这些假设为依据。因此，这些模型的实际价值或教育价值均取决于这些假设的正确性，这一点在许多教育领域中仍有待确定。

二、形成性评定法

（一）形成性评价的概念

形成性最初是由美国教育评价专家斯克里芬（G．F．Scriven）提出的。形成性评价是指在活动运行的过程中，为使活动效果更好而修正其本身轨道所进行的评价。形成性评价的主要目的是为了明确活动运行中存在的问题和改进的方向，及时修改或调整活动计划，以期获得更加理想的效果。

形成性评价的目标是在教育教学活动过程中不断了解活动进行的状况以便能及时对活动进行调整，进而提高活动质量进行的评价。形成性评价旨在为改进活动而了解活动的得失，而不是判断优劣、评定成绩。在实施形成性评价时，应在活动过程中根据活动进程有计划地进行评价，一次形成性评价的对象是活动进程某一阶段的全部内容。

（二）实施形成性评价时常用的理论依据

1．多元智能理论

多元智能理论是由美国哈佛大学的发展心理学家加德纳于1983年在《智力的结构》一书中提出。多元智能理论打破传统的将智力看作是以语言能力和逻辑—数理能力为核心的整合的能力的认识，而认为人的智力是由言语—语言智力、逻辑—数理智力、视觉—空间关系智力、音乐—节奏智力、身体—运动智力、人际交往智力、自我反省智力，七种智力构成，并从新的角度阐述和分析了智力在个体身上的存在方式以及发展潜力等。

多元智能理论对教育界产生了巨大的影响，具体如下：首先，它直接影响教师形成积极乐观的“学生观”，每个人同时拥有以上七种智力，只是七种智力在每个人身上以不同的方式、不同的程度组合存在；其次，它直接影响教师重新建构“智力观”；再次，它帮助教师树立新的“教育观”，强调评价的教育功能，发展和发现学生身上多方面的潜能，了解学生发展中的需要，帮助学生认识自我、建立自信，促进学生在原有水平上的发展。

2．建构主义认知理论

建构主义强调人的主体能动性，即要求学习者积极主动地参与教学，在与客观教学环境相互作用的过程中，学习者自己积极地建构知识框架和学科结构。教学绝不是教师给学生灌输知识、技能，而是学生通过驱动自己学习的动力机制积极主动地建构知识的过程，课堂的中心应该在于学生而不在于教师，教师在课堂教学中应该是引导者、促进者和帮助者。

学习和评价的观点都由原来的一味强调学生学习的结果转向关注学习过程，由原来的被动反应变成积极的意义建构，从评价具体的、独立的技能转变成整体和跨学科评价，从注重元认知（自我监控和学会学习的技能）和认知技能（动机和别的影响学习和成功的因素），转向注重知识和技能的应用——从零散的事实的积累和技能转变为强调知识的应用。

（三）形成性评价在教学中的运用

1．形成性评价最早在教学中的运用

美国教育学家布卢姆教授第一次将形成性评价运用于教学活动当中，他认为形成性评价不仅是改进教学工作、提高学习效果、形成适合于教学对象的教学的重要手段，而且是促进学生智能发展、充分挖掘学生学习潜力的重要手段。

布卢姆提出形成性评价的任务是：

第一，调整学习活动。要明确规定每个学习阶段的学习目标及评价项目，划分出学习单元和具体课时，并根据评价结果及时调整学习活动。

第二，强化学生的学习。形成性测试能使学生明确是否已达到了阶段目标、存在的问题及今后的努力方向，从而调动他们的积极性，增强其自信心，以起到强化学习活动的作用。

第三，发现存在的问题。根据测验发现的问题，经过分析，可以找到产生错误的原因，为学生克服学习上的困难提供有效信息，同时也为确定新单元的学习目标提供必要依据。

第四，提供学习的矫正。根据对存在问题的分析，给学生及时的辅导和帮助，使他们自觉地改正错误，提高学业成绩。这不仅有利于学生全面地完成学习任务，而且有利于发展他们的认识的能力。

2．形成性评价的常见类型

重视形成性评价是现代教育评价的发展趋势之一。自其产生至目前，形成性评价与质性评价、定性评价的运用相结合，其运用类型逐渐丰富并发展为真实性评价、表现性评价和发展性评价等几种。

（1）真实性评价。真实性评价（authentic assessment）指的是在真实的生活环境中评价学生的表现，而不是仅仅在课堂上评价学生的学习行为。真实性评价任务都是学习过程中有意义、有价值的重要经历。例如，在真实性评价中，一名学生为了解释发动机的零件，可能需要重新组装一个发动机，相反，传统的评价方法强调的是对发动机零件的记忆。真实性评价暗含的含义是：评价是学习的一部分，是不断发展变化的，成功或失败只能用学生在新的环境中应用知识和技能的能力的具体事实说明。

（2）表现性评价。表现性评价（performance assessment）关注“我们怎么知道学生知道了什么”，要求定期观察和评价学生的表现。学生应该知道评价的标准，明确的标准不仅可以使学生知道关键信息，同时也可以给学生确立一个奋斗的目标。

表现性评价常常与真实性评价一起运用，并且与真实性评价一样有着以下的评价任务特征和评价要求。真实性评价和表现性评价的任务特征是：情景化、整体化、元认知化（需要学生思考他们的思考过程），与所教的课程内容相关、灵活性（可以以多种方式展示知识和技能）。真实性评价与表现性评价的要求是：多种形式、自我评价、同伴评价、具体的标准、常规的学习结果和自我反思和个人内心反省。

（3）发展性评价。发展性评价（development assessment）是一种形成性教学评价，它针对以分等和奖惩为目的的终结性评价的弊端而提出来，主张面向未来，面向评价对象的发展。1990年前后，英国对发展性教学评价开展了广泛的实验与研究，取得了很好的教育效果。它由形成性教学评价发展而来，但比原始意义上的形成性评价更加强调以人的发展为本思想。原始意义上的形成性评价强调对工作的改进，而发展性教学评价强调对评价对象人格的尊重，强调人的发展。

发展性教学评价着重于人的内在情感、意志、态度的激发，促进人的完美和和谐发展，是“以人为本”的思想指导下的教学评价。发展性教学评价强调评价主体多元化，主张使更多的人成为评价主体，特别是使评价对象成为评价主体，重视评价对象自我反馈、自我调控、自我完善、自我认识的作用。发展性教学评价在重视施教过程中静态常态因素的同时，更加关注施教过程中的动态变化因素。发展性教学评价更加强调个性化和差异性评价。要求评价指标和标准是多元的、开放的和具有差异性的，对信息的收集应当是多样、全面和丰富的，对评价对象的价值判断应关注评价对象的差异性，有利于评价对象个性的发展。发展性教学评价在重视指标量化的同时更加关注不能直接量化的指标在评价中的作用，强调定性评价和定量评价的结合运用。认为过于强调细化和量化指标，往往忽视了情感、态度和其他一些无法量化而对评价对象的发展影响较大的因素的作用。

3．形成性评价的方法

从一般意义上来说，形成性评价的结果能够指导以后的教学与学习。因此，实施形成性评价的一般方法有：教师观察，以确定一名学生应用知识和技能的能力；形成性评价也可以是紧跟在一节课后的评价活动，教师可以用一两句话总结上一节课的要点，并且提出相关的问题，描述学生在课堂中的反应，或者联系学生的已有知识。

除了以上的一般方法，“成长记录袋”与“传统背景下的真实性评价”是形成性评价的常用方法。

（1）成长记录袋

成长记录袋是指收集、记录学生自己、教师或同伴做出评价的有关材料，学生的作品、反思，还有其他相关的证据与材料等，以此来评价学生学习和进步的状况。成长记录袋可以说是记录了学生在某一时期一系列的成长“故事”，是评价学生进步过程、努力程度、反省能力及其最终发展水平的理想方式。

成长记录袋的主要作用有以下两点：首先学生通过自己的全程参与，学会了反思和判断自己的落后、进步与努力、不足。因为学生有权决定成长记录袋的内容，特别是在作品展示或过程记录中，由学生自己负责判断提交作品或资料的质量和价值，从而拥有了判断自己学习质量和进步、努力和不足的机会；其次，成长记录袋为教师最大程度地提供了有关学生学习与发展的重要信息，既有助于教师形成对学生的准确预期，方便教师检查学生学习的过程和结果，更是将评价与教育、教学融合在一起，与课程和学生的发展保持一致，提高了评价的效度。

成长记录袋可以让学生观察到：只要他们对个人或者团体做出常规的投入，那么他们的努力就会产生越来越多的回报。在成长记录袋评价中，很多学生更加努力地学习，因为这些成长记录袋表现了学生的所有权和个人选择，并与学生的兴趣和能力相关联。当学生察觉他们努力的目的是有意义的，他们就会更加努力地学习。当他们的学习超越了课堂环境，并且和他们的现实世界相联系的时候，学生通常会认为观点和概念更加有意义、更有价值。

（2）传统背景下的真实性评价

如前所述，真实性评价是用来描述富有意义、有价值得和作为学习过程一部分的任务。真实性评价包括实际的行为，在这种行为中学习被认为是创作。真实性评价的目标之一是给学生评判自身努力的机会。在传统课堂上要实施真实性评价或者搜集信息，实施者必须问关于评价的“5W1H”即“谁（who）”、“什么（what）”、“哪里（where）”、“什么时候（when）”、“为什么（why）”和“怎样（how）”的问题。通过对这些问题的询问并获得相关的答案，从而把真实性评价活动引进到课堂中。

（四）形成性评价对教学的促进

1．形成性评价促进教与学的作用

形成性评价不仅可以帮助学生强化已学知识，也可以帮助学生发展不清楚的知识点。这种评价也可以改善学生注意、记笔记、问问题、解决实际问题的方法。形成性评价通常受到学生的喜爱，因为它更多的是帮助学生表现已知的而不是未知的知识。形成性评价也受到老师的欢迎，因为这不需要很多的讲授或者评分，甚至学生也可以创造一种特定的形成性评价活动。

传统的评价注重学习结果，而形成性评价强调学习过程，重视评价的反馈机能，其目的在于建立适合于教育对象的教学。形成性评价不仅可以使学生明确今后如何学，而且可以使教师明确今后怎样教，帮助教师完成既定的教学目标。形成性评价用于教学，有助于教师及时发现教学中的问题，提出改进措施，修正教学计划。

2．形成性评价促进教学方法的改变

形成性评价可以为教学提供及时的反馈，因此，从形成性评价中，教师、家长和学生可以及时发现学生学习过程中的问题。比如，他们发现学生只有掌握了一些技能后才能进入更高水平的学习。形成性评价不仅可以帮助教师检查学生一小块内容的学习情况，发现教学或学习问题，同时也可以帮助教师比较形成性评价中的项目和学习目标，以确保教学与评价之间的一致性。因为形成性评价的目标在于发现学生未知的东西以调整教学，所以形成性评价使得学生学习的知识和评价的内容之间取得了一致。

3．避免错误地使用形成性评价

形成性评价对教与学的双方都有利，但评价需要用考试作为手段，因此会出现错误地使用形成性评价的现象。比如，一些学校出现考试失控的现象，考试或测验成灾，月月考、周周考、天天考。这种做法不但加重了学生的学习负担，而且也损害了学生的身体健康。即使有些学校对考试加以控制，但在实施形成性评价的过程中，大都是进行单纯的考试，没有利用考试对教学质量作出评价，尤其是忽略了提出改进教学的对策。上述两种做法都不复合形成性评价的目的要求。因此，在运用形成性评价时，需要注意纠正以上的不良倾向，力求有目的、有计划地实施评价活动，以促进教学质量的提高。

三、总结性评价

（一）总结性评价的基本内容

总结性评价（summative evaluation）也称为“结果评价”，是在课程编制或课程实施完成之后所进行的评价，它与形成性评价相对应，主要目的在于搜集资料和信息，对课程计划的成效，通过课程实施后实现既定课程目标的程度做出整体判断，从而决定推广采用或修订完善课程计划。

总结性评价有两个主要阶段：专家评价阶段和实地试验阶段，专家评价阶段的目的就是要判断当前所用的教学或其他候选教学方案是否能够满足组织所定义的教学需求。实地试验阶段的目的是要记录有望采用的教学在预期的环境下对目标人群的有效性。每个阶段所要进行的分析和决策，以及评价活动都列在下表中。

在专家评价阶段所要进行的活动是为了判断候选教学是否有竞争力，这包括①评价组织的教学需求与该教学的相合性；②评价该教学的完整性和正确性；③评价该教学中蕴含的教学策略；④评价教学的效力；⑤评判当前用户对此教学的满意度。如果该教学已经为满足组织的需求而做了裁剪，并经过了系统化的设计和开发，以及总结性评价前的形成性评价，那么专家评价可以不做，但是如果该组织不熟悉此教学和它的开发历史，就必须要做专家评价。

表1　总结性评价的专家评价和实地实施阶段

续表1

实地试验阶段由两部分组成，第一部分是结果分析，要评价教学对学习者技能、对学习者工作（迁移）以及对组织（需求满足程度）的影响。第二部分是管理分析，包括评定教员及管理人员对学习者表现的看法，实施可行性和费用等。

总结性评价的实地试验阶段要记录学习者的表现和态度，记录教员／管理者的态度，记录实施教学过程和所需要的资源，实地试验的主要目的就是要确定教学的优点和缺点，判断成因，记录下好的地方和存在的问题。

专家评价和实地试验都可以只对一种教学材料做，也可以对若干个需要比较的教学材料做。一般来说，专家评价阶段往往是从多个候选教学中挑选出一两个最有竞争力的去做实地试验。下面详细介绍了这两个阶段。在专家评价阶段的叙述中，假设你要评价的教学是你所不熟悉的，而你又必须决定是否要增加实地试验的人手和费用。

（二）总结性评价的专家评价阶段

1．适合度分析

（1）组织的需要。不管总结性评价是否要做教学材料的比较，还是只对一种教学材料进行评价，评价人员都要了解所评价的教学材料是什么，目标针对什么对象而设计的，要判断该教学的目标和对象是否与组织的需求、目标学习者的特征相吻合。为了进行适合度分析，首先你必须获得该组织需求的详细说明，其中包括对目标学习者入门技能和特征的精确描述。在获得这个信息之后，你要在教学材料中具体标注出满足组织需求的地方。对于每一种候选材料，你都需要获得该教学的目标和目的的清楚陈述，以及它所针对的目标对象。这些信息有时候可以在材料的前言中或序中找到，也可能出现在教师手册中。如果这些描述太一般化了，那么你可能还需要与材料的出版商联系，索求更详细的信息。

（2）资源。你还要分析该组织为了购买及实施教学材料可用的资源，以及获取和安装其他材料的费用。太贵的材料，即使很有效，通常也不在组织的考虑之列。组织中可用的设施和设备与实施教学所需要的设施和设备之间往往也存在着一定的差距。

一旦获得了这些相关资料，你就要开始比较：①组织的需求与材料的目标是否相符；②组织的目标人群与材料的目标人群是否相适应；③组织可用的资源与获得和实施该教学的设备需求是否一致。从适合度分析中得出的信息应该与有关的决策人分享，尽管你会被要求提供建议，但是那些做出最终决定的人，那些决定要对哪个材料做总结性评价，或者是否继续评价过程的人因组织而异。

对于那些被选择做总结性评价的材料都要问如下几个与高质量材料设计有关的问题，这些问题应该在进行实地试验之前就得到回答：①该材料及所附带的考试题是否齐全且准确？②所采用的教学策略是否适合学习结果的类型？③该材料能够被有效地使用吗？④当前用户对此材料满意吗？

如果你判断出候选材料在这些重要方面存在明显的不足，那么继续总结性评价不会有什么结果。在总结性评价的这个阶段结束后，你应该告诉主管你的判断，再问他们是否还要继续总结性评价。

总结性评价的这个阶段所采用的工作方式与形成性评价中一对一评价时所采用的策略类似，但也有些不同。

2．内容分析

因为教师可能不是要评价的材料方面内容的专家，因此可能需要请一个专家作为顾问。这时必须考虑的问题是如何最好地发挥这个专家的作用。一种策略是向专家提供所有候选材料的副本，请他们评判材料对于组织所陈述目标的精确性和完整性。另外一种更好的、性价比更高的策略是与专家一起做所陈述目标的教学分析。专家所产生的文档既要包括目标分析也要包括从属技能分析。那个确定并序列化教学目标中主要步骤和从属技能的框架可用来判断任何候选材料的精确性和完整性。

如何使用这个框架呢？框架中所包含的技能可以转换为一张核查表或一张等级量表，评价人员可以据此来审核评定候选材料以及相关考试题的质量。

3．设计分析

类似于一对一形成性评价，需要评价候选材料中的教学策略成分是否合适。作为一个外部评价人员，可能不知道某个策略成分是否出现了，如果出现了是否能引起并维持学习者的注意力。同样在这个时候可以用核查表来审核和比较候选材料，这是最彻底最省时间的方法。

在开发核查表时，你要在最左列列出各教学策略成分，用剩下的列纪录候选材料中是否出现该教学策略。你也可以设计成等级量表形式，基于材料中所说的学习结果的类型设定权值。评价人员所填写的表格会因为教学的性质不同而有很大差别。

4．可用性和可行性分析

关于教学材料的第三个问题与候选材料的可用性有关。对于每种材料，你都要考虑这些因素，诸如是否有学习者指南，是否有课程大纲，是否有教师手册等。另外还要考虑材料的耐用性，以及是否还有对其他特殊资源的要求，如对教师能力、设备或环境（如学习中心）的要求等。可用性方面的考虑还包括材料是否需要考虑小组或个人进度，获得和实施该材料的相对费用是否可修改等等。事实上，任何有可能扩大或限制该材料在组织中采用的因素都应该考虑。

为了设计这部分的总结性评价，你需要与组织中要求进行总结性评价的关键人物会谈。通过与他们的讨论，确定你确实了解了他们的需求、资源和限制。他们还可能有助于确定你尚未考虑到的一些可用性方面的问题。

可以根据所选择的可用性问题，设计一个总结表，以便在评价所有候选材料时将注意力集中到这些问题上。与前面的例子一样，最重要的问题列在核查表的最左列，随后是每种材料的回答各占一列。这种核查表和前面介绍的核查表不同，你需要给出每种材料相关的描述性信息，而不是简单判断某个指标是否出现。这种用表格的形式简要总结描述性信息的方式，可以方便材料的比较，有助于形成建议。

5．当前用户分析

还有另外一类分析可能希望包含在评价设计中，就是向正在使用候选材料的组织寻求额外的信息。当前用户名单可以从材料的出版商处获得。

需要从用户那里获得哪些信息呢？一种类型的信息是有关目标学习者在其他环境下的数据。例如，他们的入门技能是什么，学习这个材料的动机是什么？使用该教学前后他们的前测和后测表现有何差别？最后，他们对该材料的态度如何？

另一类信息是教师对该材料的感觉。例如，这些材料是否好用？他们在使用这些材料时碰到了哪些问题？使用这些材料时需要用到哪些资源？他们是否打算继续使用该材料，如果不打算使用了，为什么？

根据你的经费和条件，你也许能够亲自去用户单位了解情况，也许你决定通过问卷和电话访谈来收集信息，不管采用哪种方式，你都要在获取信息之前做好计划。

至此，已经到了专家评价阶段的总结时期。基于所收集的数据，能够决定是否需要进行总结性评价的实地试验，哪些材料值得进行实地试验。用于产生这部分评价的评价设计和评价过程都应该与你的建议和分析一起记录在你的评价报告中。下图表示了专家评价阶段所要做的各项任务的工作顺序，以及总结性评价人员决定所给的教学是否需要实地试验的决策过程。

图　在总结性评价的专家评价阶段分析活动顺序

（三）总结性评价的实地试验阶段

1．结果分析

总结性评价的第二个阶段是实地试验。在试验阶段，教学按照预先计划在组织内对所选择的目标学习者实施，实地试验包括以下几个部分：做评价计划，为实施做准备，实施教学和收集数据，整理和分析数据，最后报告结果。

表1总结了与此阶段评价每个部分相关的活动，每列的表头是主要部分的名称，下面列出的是与此相关的活动。所有处在第一列“计划”部分的活动都应该在第二列“准备”活动开始之前自上而下地完成。类似地，第二列的活动也应该在第三列“实施／收集数据”活动开始之前按顺序从上往下执行。但是，在教学实施和数据收集时，不再采用这种自上而下顺序执行的模式，而是按照最省时、性价比最高的时间表来收集与每行相关的数据。数据总结和报告这两列也是如此。最后三列的活动之所以也按照这个顺序呈现，只是为了简单地说明他们与前两列活动之间的关系。下面非常详细地介绍了总结性实地试验的每个活动。

2．活动计划

第一个计划活动就是设计你要进行的实地试验。所做的设计取决于几个因素，如需求评价、材料特点、是否要包括其他做比较的材料等。你可以只用一组人来评价一种材料；也可以用具有不同的特征、或分处在不同环境下的多个组去评价一种材料；你还可以在对照组和对照环境下比较不同的材料。

另外一个设计活动是清楚定义在研究时要回答的问题，这些问题是根据学习结果分析（对学习者、工作和组织的影响）和管理分析而提出来的。这些问题一定要与学习者的入门技能、他们在目标上前测和后测的成绩以及他们的态度紧密相关，另外也要与所需要的资源、设备和设施相关，还可能与实施教学的那些人的技能和态度有关。其他相关因素还有实施过程和实施日程安排。具体包含哪些问题取决于所做的研究及可用的资源。

所要设计的问题不仅关于学习环境下学生的表现，还要包括在迁移环境下学生的表现。事先要计划好是对参与教学的部分学生还是全部学生做进一步的调查。可以采用访谈、问卷和观察方法向学习者和管理者、同僚和下属了解该教学对工作环境的影响。在形成性评价实地试验时所问的一些问题在这里也可以问，总之，一定要事先做好计划。

当手头有了教学材料，有了设计好的评价框架，下一步就是陈述研究所需要的资源、设施和设备了。这个活动应该在确定如何取样之前完成，因为在这方面所遇到的限制会影响到你所要使用的组的性质。先计划理想化的需求，然后再协商这些需求的可行性。

在解决了所需要的资源问题后，你就可以将注意力转向描述理想目标学习者了。你的描述应该包括他们的入门技能，以及其他与材料相关的特征（如先前的经历，现在的职位，和个人目标），你还要决定你所需要的（或你能应付的）学习者的数量，以及你所需要的组的数目。在做这个决定的时候，你要做适当地估计，因为是数据的质量而不是数量起关键作用。一般来说，有20到30个经过挑选的真正能代表目标人群的学习者就够了。组这个词并不意味着小组教学，而是指要收集数据的个体数目。

一旦你知道了研究中要有多少学习者，你就可以确定需要多少教员或管理人员。除了说明理想人数，你还要描述为了实施教学他们应具备的技能。是否能够找到一定数量的合适教员可能会影响到你前面设计的学习者数量。如果限制学习者数量不可行，那么你就需要做一个计划，多培训几个教员了。

计划阶段的最后一个活动就是对教员做相关培训。一个好的总结性评价需要实施教学教员的合作，他们必须知道他们是整个研究的重要组成，他们有知情权，他们的观点是有价值的。与这些人从一开始就建立和睦的关系，并在整个研究过程中保持密切合作，会提高实地试验以及所获得的数据的质量。最后一个提醒：必须要使教师相信不是在评价他们自己，也不是在评价学习者。从一开始，评价的焦点就应该是教学，而是教师或者学生。只有建立信任，关心学习者的需求，才能顺利进入这个环境，获得需要的真实数据，事实上，可以在研究过程中始终将他们既视为研究的实施者，也视作评价人员，这是一个不错的想法。

表2　总结性评价试验活动一览

续表2

3．准备

准备阶段的活动应根据计划阶段的决定而做，包括获取所有的材料、量表、资源和人。当需要和现实不同时，就要做出某种让步。在你的评价报告中要专门有一节说明这些试验限制，注明所做的改变。

4．收集数据

在教学的实施阶段，你需要收集所要求的各种类型的数据，包括测定表现、观察、访谈和问卷。你所收集的数据的多寡取决于你的问题和资源。至少你需要前测数据和后测数据，以及学习者对教学材料和教学过程的看法。这些信息通常通过教师不太昂贵也不太麻烦地就可以获得。在过了一段时间之后，就可以到实际环境去作评价了。

5．整理、分析数据

在形成性评价的实地试验部分介绍的数据汇总技术对于总结性实地试验也同样适用。至少需要产生目标－题目对照表，按组或按人总结学习者的成绩，你也可能还想用表格形式比较个人和小组从前测到后测的进步，描述所学技能在实际环境下的使用情况。

在分析数据的时候，需要将教学效果不佳的地方记录下来，同时也要记录造成这些弱项的可能原因。另外，教学有效的地方也要记录下来。在总结性评价的实地试验阶段，对材料的优势和不足进行均衡分析十分重要，只关注不足对材料的价值评价就会出现偏差。

6．报告结果

总结性评价报告的内容取决于评价设计。如果评价设计既包括专家评价，也包括实地试验，那么在评价报告中这两个阶段的情况都要写。每个阶段都要说明基本目的、特定问题、评价设计和评价过程、评价结果、建议和分析。建议必须依据评价结果部分所呈现的数据。

在设计和形成评价报告的时候要始终想着评价报告的读者。教育学者沃仁、桑德和费茨派崔克曾经在分析了几份项目评价报告后，总结道：尽管这些报告内容丰富，但是它们是印刷“毒药”！不妨按照他们提出的格式来写作，以避免这个问题。他们建议在报告开头部分先写一个简短的总结，概括最终的建议和所做的分析。随后，读者就可以自行选择阅读技术文档的哪些部分，以便审核评价过程的质量，判断你的结论的正确性。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈