您现在的位置:首页 > 教育研究 > 论文分享
学业质量监测增值评价模型的探索
发布时间:2019-10-28 18:45:51

点击蓝字关注我们

作者简介

罗强,苏州市教育质量监测中心主任

冯杰,苏州市教育质量监测中心数据部研究实习员


苏州市教育质量监测中心(以下简称“监测中心”)于2015年起,启动了面向全市初中段学生的义务教育学业质量监测(以下简称“苏州监测”),该监测覆盖初中三个年级,监测内容分学科测试相关因素问卷调查两个部分。学科测试包括语文、数学、英语和科学,相关因素学生问卷包含影响学生学业成绩的各种相关因素变量,包含学生背景变量、学习品质、学业负担和学业支持这四个一级维度。

苏州监测采取“学校全覆盖、学生全参与、学科等比例抽样”的方式,每个学生通过随机抽样的方式只参加一门学科测试,数据分析的最小单元为学校,由于苏州监测实现了对学校的连年追踪,因此可以对各学校开展增值评价,从而能够更加公正、科学、有效地对各学校学业质量的发展状况进行精准的评估。

01

国内外增值评价模型简述


“增值评价”的理念是建立在学校可以增加“价值”到学生的学习成就这一假设之上的,而“增值”表示学校所加诸学生身上、使其学习成绩超过一般期望成绩的额外部分[1]。自20世纪70年代以来,以“科尔曼报告”为起点,学校效能的增值评价研究在世界范围内逐渐发展起来。美国和英国最早在学校评价中引入增值模式,后传到其他国家和地区。我国虽然对增值评价作了一定探索,但关于增值评价的实证研究还不多见。



在国际上,以美国的增值评价为代表的,在2015年颁布的《每一个学校成功法案》更加强调学生的“成长”,且常用的成长测量模型有3类7种。第一类是基于纵向量表的模型,包括增分模型、渐进达标模型和分类模型;第二类是预测模型,包括残差模型、学生成长百分等级(SGP)模型和投射模型;第三类是增值模型,又称多变量模型、教育增值评估系统、田纳西增值评估系统、变量保持模型等等[2]

在国内,增值评价研究起步较晚,在多层线性模型分析方法产生之后,“增值评价”的模型构建才有了一个新的发展和飞跃。多层线性模型更加全面考虑学校、学生等层面的变量,更加准确区分不同层面、不同因素对学生学业发展所起的作用,并精确计算出各个因素所作的贡献[3]如北京市教育督导与教育质量评价研究中心对增值评价开展了两个项目的研究:(1)义务教育质量评价与反馈系统项目(BAEQ),对部分连续抽测区(县)的小学进行增值性评价分析,以学生2009年三年级数学测试为前测成绩、2011年五年级数学测试成绩为后测成绩,分析学校数学学业增值的情况;(2)以中高考成绩为数据基础的学校增值性评价项目,采用多层线性统计模型,研究学校对学业水平的净效应[4]。杜屏等人基于我国西部五省调研数据的实证分析,采用多层线性统计模型,来研究农村初级中学学校效能的增值性评价[5]

苏州市教育质量监测中心在借鉴这些学生增值评价模型的基础上,尝试构建适用于苏州本土、易于一线老师理解和接受的增值评价模型。


02

构建追踪监测的增值评价模型


苏州监测设计了对同一级学生进行追踪监测的方式。以2018年的监测为例,2018级的学生有2018年一年的监测数据,2017级的学生有2017年和2018年两年的监测数据,2016级的学生则有2016年、2017年和2018年三年的监测数据。因此,可以通过对连续监测学校的数据进行追踪比较,实现增值评价。



1.实现不同测试卷的等值


苏州监测的各学科测试分为A、B卷,在难度和区分度上并不完全一致,从严格意义上来说,A、B卷并不可比。为了解决同一学科不同测试卷之间的可比性,监测中心采用锚题技术,将A、B卷中的部分题目组合成C卷,采用项目反应理论模型(Item Response Theory),通过Conquest软件进行计算,将A、B卷实现等值。将Conquest软件计算后得到的学生能力分标准化,再转换成均分为500、标准差为100的量尺分数。

量尺分数具有不受测试题目差异和题目难度影响的特点,从而使得同一年度中以及不同年度间完成不同题本学生的分数具有可比性。



2.构建百分等级增值评价的模型


(1)模型的算法。百分等级是测量学中应用最广的表示测试分数的方法之一。一个测试分数的百分等级是指在常模样本中低于这个分数的人数的百分比。因此,百分等级85表示在常模样本中有85%的人比这个分数要低。换句话说,百分等级指出的是个体在常模群体中所处的位置,百分等级越低,个体所处的位置越低。

因为百分等级指的是个体在常模中所处的地位,考虑到苏州市各区域教育生态的差异,为了让常模稳定一致,监测中心根据学生的量尺分数来计算学生个人的百分等级,并在学生所处的同一个区域中将学生个体的量尺分数转化为百分等级。在数据计算中,以学校中所有学生在该区域中的百分等级的平均值来代表该学校的百分等级。

(2)模型的科学性。为了更加客观科学地反映初中学校的增值情况,监测中心构建并比较研究了学校增值评价的两种模型。第一种模型采集了苏州市从2016-2018年均参加监测且可追踪的92所学校的数据,以这些学校各科2016年百分等级和2017年百分等级、2017年百分等级和2018年百分等级(能够体现年度间增值情况)画散点图,并求出拟合直线为:y=0.8929*x+5.4544,由于此模型是基于各学校实际百分等级的变化进行的拟合,因此我们把此模型称之为“经验模型”。

表1 “经验模型”和“理想模型”增值比较示例


第二种模型认为,如果参测的某校某学科百分等级保持在去年的水平上,该校该学科为“零增值”,若今年的百分等级高于去年,即为“正增值”,反之,为“负增值”,用公式表示为:y=1.00*x+0.00。由于此模型不考虑各学校之间各方面的差异(如办学水平、资源配备),因此,我们把此模型称之为“理想模型”。

图1 各年各科百分等值散点图

比较“经验模型”和“理想模型”,我们发现两个模型的函数图像非常相似,尤其是中间段成绩的学校差异很小,而优质学校和薄弱学校则出现少许差异。表1选取了A校作为薄弱学校代表,B校作为优质学校代表,易见,在“理想模型”中,薄弱学校相对更容易实现高增值,而优质学校实现增值的难度相对较大。

由于优质学校集中了相对较为优质的生源,所以这类学校理应承担更多的责任,理应培养更多的优质学生。因此,综合考虑两种模型的科学性、合理性、简洁性和一线老师的可接受性,监测中心采用“理想模型”对学校进行百分等级增值评价,把对优质学校的增值要求提高到与对薄弱学校的增值要求一致。

(3)模型的应用。以P区域2016级为例,该区域中过去三年中均参测的学校有3年的监测数据。图2呈现了P区域A校2016年初一、2017年初二和2018年初三的语文、数学和英语的百分等级。在计算百分等级的时候,以P区域为常模,故P区域的平均百分等级为50。从纵向看,可以看到某年各学科百分等级在P区域中的相对位置以及各学科之间的高低情况;从横向看,可以看到某学科三年或者两年百分等级的变化情况,以此来反映A校的增值情况。

图2 P区A校2016级三年百分等级圆点图




3.构建四水平增值评价的模型


(1)模型的算法。在常模中将学生个人量尺分数由高到低进行排序,按照人数占比0-25%、25%-50%、50%-75%、75%-100%,把学生分为Ⅰ、Ⅱ、Ⅲ、Ⅳ四个水平。Ⅰ水平学生表明该生量尺分数处于常模前25%,Ⅳ水平学生表明该生量尺分数处于常模后25%。同样,为了让常模稳定一致,以学生所在区域学生为测量总体计算学生个人四个水平。在数据计算中,以学校中各水平人数占学校总人数的比例来代表学校各水平的百分比。

(2)模型的应用。从百分等级的增值可以看出一个学校某一学科总体的增值情况。而通过对学校四水平占比变化进行追踪,可以清晰的看到学校各科各水平人数比例三年的变化情况,可以更为精细地诊断出学校进步或退步的人群结构,便于学校明确改进方向,抓住改进的关键点。


03

构建单次监测的增值评价模型


监测中心根据初一新生的个人信息,能够追踪到学生的小学毕业学校,因而能够实现对所追踪到的小学毕业生学业质量水平的评价。由于所追踪到的小学仅有一年的数据,监测中心需要积极探索适合单次监测的增值评价模型。

《科尔曼报告》指出,家庭背景是影响学生学业成绩的主要因素[6],有关家庭背景与学生学业成绩的一系列研究也证实,家庭社会经济地位对儿童的学业成就有显著的影响,其影响甚至大于学校的影响。国内也有很多学者的研究表明,学生的家庭社会经济地位对其学业成绩有重要影响。

(1)模型的算法。基于国外内学者的研究,监测中心尝试以学校为单位,用苏州市370多所小学的家庭社会经济地位来预测学校的学业成绩(用量尺分数来表示)。监测中心以各小学家庭社会经济地位与各科学业成绩绘制散点图,并求出拟合直线以及解释率R方,看该模型是否达到可接受的范围,再将其与这些学校实际的学业成绩进行对比,以期在一定程度上反映小学的增值情况。

(2)模型的科学性。在计算学校家庭社会经济地位(SES)时,参照国际上通用的以父母受教育程度、父母职业和家庭拥有物来合成学生的家庭社会经济地位,并通过计算学校所有学生平均的家庭社会经济地位来代表学校的家庭社会经济地位。

其中,英语学业成绩与家庭社会经济地位的关系最为密切,回归方程是y=51.074*x+508.88。解释率R方为0.5808,数学学业成绩与家庭社会经济地位的关系相对最低,解释率R方为0.3648,但解释率也达到可以接受的程度。

(3)模型的应用。根据拟合直线,可以看出各小学的增值情况,如某小学某学科位于该拟合直线的上方,说明该小学该学科为正增值,若位于该拟合直线的下方,说明为负增值。此外,为了对各小学提供数据预警,监测中心基于各学科增值情况,先计算各学科的平均增值以及增值的标准差,将与平均增值相差1个标准差到1.5个标准差作为1级预警,将与平均增值相差1.5个标准差以上的作为2级预警。以D小学的各科增值数据为例,英语学科正增值14分,表现较好,语文学科负增值1分,但是不在预警范围之内,科学学科负增值29分,为1级预警,数学学科负增值49分,已经达到2级预警,需要引起重视。






04

不足与展望

在实施增值评价的过程中,家庭、社会和学校自身等诸多因素均会对学校教育产生影响。因此,在构建增值评价模型时,还需要评判不同教育生态层面各种因素对学生学业的影响程度,以提高模型的科学性和简洁性。

监测中心目前构建的增值评价模型虽然初步解决了对本地区学校教育质量进行发展性评价的要求,但也存在一定的不足。如针对初中学校增值采用的“理想模型”,虽然简洁且容易理解,但是对数据处理相对有些粗糙,无法全面考虑学生发展过程中学生个体、教师、学校等不同层面在其中发挥的作用。而对于小学增值模型的探索虽然也得到学校的认可,但是仅考虑家庭社会地位对学生学业成就的影响是不够全面的。

随着多元统计技术的迅速发展,多数学者在研究预测学生的学业成绩时,采用了多水平线性模型的方法,这样能够区分不同层次、不同因素对学生学业发展所起的作用,比如学生层面的变量,包括学生入学水平、家庭社会经济地位、学习品质等,以及学校层面的变量。

监测中心将在目前整体评价学校增值情况的基础上,更深入地研究各种因素对学生学业成绩发展的影响程度,以期能够区分各种因素的责任,剔除与学校无关因素的影响,实现对学校“净增值”的准确测量,从而构建更加科学公正、更加适合苏州教育实际的发展性评价机制。



总结和展望是为了更好地未来

参考文献:

[1] 英〕萨丽·托马斯.运用“增值”评量指标评估学校表现[J].教育研究,2005(9).

[2]王晓平,齐森,谢小庆.美国学校“成长测量”的7种主要方法[J].中国考试,2018(6).

[3]边玉芳,王烨晖.增值评价:学校办学质量评估的一种有效途径[J].教育学报,2013.

[4]北京市教育督导与教育质量评价研究中心.增值性评价评出学校的“加工力”[J].人民教育, 2016(16).

 [5]杜屏,杨中超.农村初级中学学校效能的增值性评价—基于我国西部五省调研数据的实证分析[J]. 北京师范大学学报(社会科学版),2011(6).

 [6]James S. Coleman et al. Equality of Education Opportunity[M].WashingtonDC:Government Printing Office,1966.


文章来源:《中小学信息技术教育》2019年第十期 34-38页。

注:本文是江苏省教育科学“十三五”规划重点课题《区域初中教育质量监测结果运用的实践研 究》阶段性成果,课题批准文号:E-a/2016/04。

THE

END

原创文章推荐

1.湖南与苏州地域文化之辨析
2.重磅!第五次苏州市义务教育学业质量监测于9月12日顺利实施
3.高效能教育质量监测结果运用的苏州实践
4.权威解析!基于课标 关注素养 对接国际 着眼未来 —— 2019年苏州市义务教育学业质量监测学科试卷解析(小学篇)
5.权威解析!基于课标 关注素养 对接国际 着眼未来 —— 2019年苏州市义务教育学业质量监测学科试卷解析(初中篇)


精选热文推荐

1.脑科学研究:把时间“浪费”在体育运动或者跑步上,学生成绩反而会提高
2.国务院新规:严禁手机带入中小学课堂!孩子的手机家长要不要收回?这些建议赶紧了解一下
3.重磅!上海市出台义务教育减负增效实施意见和加强作业管理与指导等措施
4.千万别在该立规矩的年龄,跟孩子做“朋友”
5.9幅漫画告诉你:真正的教育是什么?



上一篇:小场地也能做出大名堂——破解老城区学校体育运动场地不足问题
下一篇:评估监测‖ 加强相关因素监测 推动学生全面发展——江苏省苏州市学业质量监测学生相关因素指标框架的构建与思考