您现在的位置:首页 > 新闻资讯 > 国内视点
基础教育质量评价理论方法的新进展及应用述评
发布时间:2015-08-17 11:57:07

各位老师、各位专家,去年恰逢高考改革方案修订,我有幸参加了方案制订部分会议,也参加了一些由基教二司和课程中心组织的基础教育评价活动。今天,我的报告内容主要是有关高考改革和基础教育评价遇到的问题。实际上测量理论技术的发展,有很多新技术、新方法可以解决我们目前遇到的难题,有些难题当然是需要在政策制订层面来考虑、解决,但也有很多可以利用技术来解决。

  我国是考试大国,是历史最悠久的国家,创造了考试的历史 ——科举。但是真正把测量作为一门学科,则始创于西方。我国传统的测量与评价方法——真分数理论模型,相信在座的无论是老师也好,科研人员也好,都很熟悉。基于真分数理论的方法、技术,我们称之为经典测验方法、技术。作为间接测量,要使测量与评价可靠,编制有恰当难度、区分度(鉴别力)的题目,控制测量误差(随机误差、系统误差),是提高测量的可靠性(信度)、准确性(效度)的有效手段。考试有两种类型,即常模参照和标准参照。这两种类型有不同的分数报告模式,如排队、排位、达到预定目标等。经典评价模型非常简单,经过百年发展,得到了比较广泛的认可。

  但它也存在一些问题,这也同样是现在高考改革和课程改革过程中应该考虑的问题。第一,“一张试卷”评判结果的合理性和准确性。我们习惯用一张试卷来评判结果,但不同的命题人员选择考察内容的角度肯定不同,因此,一张试卷不可能覆盖全部所想考察的内容。第二,我们经常讲因材施教,但学生的长处和短处在哪里,我们不知道。那么,可不可以做到因人而测?当学生考试没考好时,家长可能会认为“是我的孩子学不好”,但是他也会追究老师的责任“为什么我的孩子会的你不考,不会的倒考了一大堆,说明是你们出题有偏差。”第三,经典测量理论以前是评价团体,现在更为重视评价个人。我们光知道什么是排位、达标还不够,还需要知道为什么、好在哪里、不足在哪、有什么方法可以补救等。

  我今天想讲的主要是学业水平方面的研究,非学业水平的我准备放在一边,因为非学业水平是另外一个层面。

  因人们对经典测验的批评,孕育了现代测验理论,即希望能够对不同的人做出不同的评价。到目前为止,现代测量方法有以下几种情形:

  一种是项目反应理论。项目反应理论以潜在特质为理论基础,使用Logistic等模型,以人的能力值表达为掌握程度。特别是IRT-CAT的实现,做到了因人而“测”、因人施“测”。一个人考试,经常会遇到这样一种情况:出的试题不是我最擅长的,而我最擅长的方面却没有考到。那么,我们就想,考试结果是不是可以不用分数表达,而用能力来表达?完成不同的题目是不是可以得到不同的分数?我们经常出选择题,如“1+1=?”是一道题,可以得两分;“6+5=?”这道题也得两分。那么,难度不同,得分是不是也可以不一样?当考虑到了“因人而测”后,学生可以自由选题,但主要困难是计算模型比较复杂,需要依靠计算机。但这种测试方法仍只是用一个分数来评价结果,还是没有回答到能力测试的问题。

  另一种是新一代测量与评价方法:认知诊断测验理论。比如我们感冒了去看医生,医生让我先去抽血化验。我想:感冒跟血到底有没有关系?医生说:我想了解一下你是风寒性感冒,还是病毒性感冒,然后再根据你的诊断结果,更加有针对性地为你做一个治疗方案。认知诊断理论就是想做到每一个学生对应一个相应的评价。比如,有两位学生,数学同样考了60分,一个是几何50分,代数10分;另外一个恰好相反。针对这种情况,我们就可以利用认知诊断理论先诊断出这位学生几何考不好的原因,即到底是天生的空间想象能力问题,还是教学方法或学习方法问题,然后再给出相应的诊断报告。认知诊断理论把认知过程与测量手段结合起来,不仅能对考生的整体水平做出评估,同时还可以将考生的认知结构模式化,然后利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考察考生的认知结构和个体差异。该理论主要是基于数学模型来做的,比如说潜在特质模型(线性逻辑特质模型、多成分潜在特质模型、拓广多成分潜在特质模型)和潜在分类模型(规则空间模型、融合模型、DINA模型、NIDA模型、贝叶斯网络)。这些有些已在应用,但仍需对其进行研究。

  下面我来为各位比较、分析一下经典测量理论(Classical Test TheoryCTT)、项目反应理论(Item Response TheoryIRT)和认知诊断理论(Cognitive Diagnosis TheoryCD)。

  (一)理论技术层面的比较

  经典测量理论(CTT)的理论基础是真分数理论,测评目标是测验得分;项目反应理论(IRT)的理论基础是潜在特质理论,其测评目标是测出被试的潜在特质(即能力);认知诊断理论的理论基础是认知心理学与心理测量学的结合,是为了测出被试的认知属性结构。现在的心理学研究认为,人的各方面能力是天生带来的,有些人的语言能力缺失,有些人的数学能力缺失,因此不能完全用分数来测量。

  一般运用经典测量理论(CTT)进行测评的意义是获得初试的测验成绩,项目反应理论(IRT)是不但使用成绩还计算出你在这个团体的位置,认知诊断则是为了提升和补救教学,或者针对你的特点给出相应的建议。前面已经讲到,在测量模型方面,CTT主要是针对真分数模型;IRT在现今已有很多的模型,也得到了大量应用;认知诊断主要有规则空间模型、属性代码模型、融合模型等,因为它还比较新,因此各种模型的应用都还在探索之中。

  在核心技术指标方面,CTT就是区分度、难度、信效度;IRT是项目特征曲线,就是你的能力有多高,就可以不断地累积,当然也可以不是累积模型,可以另做其他模型;认知诊断,通俗地说,就是这个班级里的学生按照不同类别可以分成三、四个学生群,这些学生的能力和认知差不多,教学就有针对性。分类对于老师来说,作用非常大,所以我经常在广州跟学校老师说,你想当优秀的教师其实是特别容易的,只要你把每一个学生都进行属性分类,那他的测评报告结果就不仅仅是60分。比如,一个学生数学只考了60分,老师就可以在这60分当中找到亮点,然后再对学生进行有针对性的辅导。

  任何数学模型的应用都是有前提条件的。经典测量理论是平行测验,因此要用两个测验来重复测验出真分数和误差,并估计出真实能力和测验误差;项目反应理论在测验前要进行单维性假设,就是对一种能力进行多种不同的测试,还要进行局部独立性假设、项目特征曲线假设。这是非学业的测试,做质量监测时可以用这个模型。现在最值得我们欣赏的认知诊断理论,虽然要达到的目的比较多,但是前提条件特别少,可以得到比较灵活的应用。

  从选题要求来说,经典测验理论以难度、区分度作为评价指标,可以对测验分数进行等值。项目反应理论将项目参数、测验信息量作为评价指标,可对测验能力值(分数)进行等值,也可以对项目参数进行等值。认知诊断则将属性考查次数、考核模型、需具备诊断被试认知属性的功能作为评价指标,且不需要进行等值。

  (二)应用层面的比较

  目前,国内基本上都在用经典测量理论的方法,项目反应测量法的应用也有所涉及。我国的大学英语四六级应用的就是项目反应理论的方法。应用认知诊断理论是我最早在研究的一种测量方法,国内还没有人应用。这种测量方法需先建题库,再在题库里建立在线测试,然后进行数据分析。最难做的是题库的建设。每一个年级要做一个学科题库,我们目前在广州已经做了14个。题库建设起来后,可以根据年级学科,每个学期给学校一个相应的版本直接进行测试。建设题库,要求整个学科组有一个共识,即这个题目的测试范围到底是什么。我们求的共识,是尽可能达到最大的认识。

  经典测量理论的测验成本是平均成本,命题的成本不会很高,但在实测过程中的成本非常高,特别是大规模的。而认知诊断的前期建设成本很高,但是后面只要更新题库就可以。对于测量,我们常想知道测量的结果到底怎么样?测评的精确程度是否很高?一般来说,经典测验只有团体误差和团体比较,精确度比较低,命题难度也一般;项目反应理论的评分虽不会出现太大误差,但是考能力的时候题库数量不够,因此在选题的时候题目可能会不断重复,从而造成偏差。认知诊断是有针对性的进行测量,比如只针对一个单元进行检测,其结果就会很精确。由这一点就可以看出,认知诊断的命题难度最大,因为先要找出每个模式,找到的模式还要得到大家的认可。但如果教育部的课程标准制定出来了,可能对我们以后的工作有更多帮助。

  经典测验对计算机技术的要求一般,测验编制及实施的技术要求也较低,前期比较容易,但是对组织的要求较高。因此,经典测验有较广泛的应用前景。项目反应理论和认知诊断对计算机技术的要求都比较高。在编制及实施方面,项目反应理论可以用纸笔测验,也可以用计算机测试。认知诊断则完全是在线上完成测试,数据收集难度比较大,但我认为,随着社会和科技的发展,认知诊断可以引发测量评价的革命,可以真正做到“因人而测”“因人而试”,给出“因人而教”的真正方案。

  (三)总体评价与应用建议

  总体评价:

  经典测量理论的优势在于:①便于理解、操作;②测验成本低;③团体共用一份试卷,针对团体作出评价。其缺陷和不足在于:①被试的能力水平与测验相关;②试题(卷)的特征指标与样本相关;③测量结果笼统、不精确;④真分数与观察分数线性的关系假定得不合理;⑤参数指标间匹配性较差,被试能力与项目难度不在同一量尺上;⑥测验结果的准确性与推广性相矛盾。

  项目反应理论的优势在于:①克服了经典测量理论的“测验相关”“样本相关”等不足;②对被试能力的测量比经典测量理论更为精确;③以IRT为基础发展的CAT测验克服了经典测量中所有被试完成同一份测验的弊端,实现了“因材施测”的目标;④可以做到“因人而测”。其缺陷与不足在于:①对被试能力的定义还是通过单一的能力值,未能进一步考查被试的认知结构;②测验理论较为复杂,需要由具备专业统计测量学知识的专家进行操作;③测验成本较高;④参数值为服从特定分布的实数,不易于解释。

  认知诊断理论的优势在于:①继承了项目反应理论的优良性质;②能够精确地测量、诊断被试的认知属性结构,极大提高了测验的功效;③能够对被试进行更详细的分类,特别适宜不作排队,不影响日常教学的测试;④以CD为基础发展出CD-CAT测验,比普通CAT测验更为优越;⑤能够为提升或补救教学提供确切的依据,不仅能提高测验质量,还能提高教学质量;⑥不但可以“因人而测”,还可以对不同的人给出不同的评价结果,做到可以不用“统考”也可以分析、收集数据,给出质量的评价。其缺陷与不足主要在于:①测验理论较为复杂,尤其是命题要求很高,需要由统计测量专家与认知心理学专家、学科专家通力合作进行;②对认知属性的划分较为困难,需要根据所测认知领域的特点结合专门技术进行;③初始测验成本较高。

  应用建议:

  经典测验理论可涵盖使用,普及知识,成为每个教师除教育学、心理学、教学法以外的基本技能。项目反应理论可以使用于会考、能力水平考试,从而降低大规模考试的各种压力。认知诊断理论也可以使用于会考及能力水平考试,它的特别诊断功能,可以使“因材施教”个性化教学得以实现。

  每年高考之前,我们都要给广州市用认知诊断方法做一个“广一模”测量统计诊断分析,即将广州市每一个区的整体情况跟省里比较,每一个区的排名跟学校的排名进行比较,区里面的每一所高中学校之间进行比较,然后每个班级,最后每个学生都进行比较。每个区,每个学校,每个学科,甚至是每个知识模块都有着详细的记录资料。我的建议是,如果有条件,学校可以自主运行,把数据收集起来,做成模型,以后就不用再进行统一考查。认知诊断不用经过统考,不用增加老师、学生、学校的负担,不影响日常教学,就可以达到高质量的监测效果,真正实现个性化的“因人而测”。

今天跟大家分享的这些,实际上是想告诉各位,我们在质量监测、高考改革过程中,有很多问题是可以通过技术来解决的。当政策与技术融为一体,将为高考改革添一把更有用的利器,也让我们的研究结论更加可靠、准确。谢谢!

(本文为作者在中国教育学会2015年度教育评价研讨会上所作的主旨报告) 


上一篇:教育部关于印发《中小学生艺术素质测评办法》 等三个文件的通知
下一篇:教育大数据:让教师将比任何时候都更接近学生