苏州市教育质量监测中心

　　我国目前的大部分考试主要以课程标准为基础，以学科知识为中心，围绕考试大纲进行命题，考试结果仅报告原始得分，与强调核心素养考查、考试选择性、评价对教学反馈等趋势和要求差距仍然较大。国际学生评估项目考试对我们的意义，远不止于与其他国家比试高低。它为我们尝试构建应用能力导向的测试，提高命题组卷的系统性和科学性，通过等值建立横向或纵向可比的测评体系等，提供了重要思路和参照。

　　近期，国际学生评估项目（PISA，Programme for International Student Assessment）公布了2015年的测试结果，引起了社会各界的广泛关注。然而，它的意义和价值远不止于一个简单的排名。国际学生评估项目作为目前参与最广、最具影响力的国际大型标准化测试，其测试理念和测量技术都处于教育测评领域的前沿，可以为我国的考试评价改革提供借鉴。

　　以对能力和素养的考查为目的，并提供了整套方法

　　国际学生评估项目的考核重点不是学生对课程内容的掌握程度，而是评价学生在阅读、数学、和科学三方面的“素养”（literacy）。由于国际学生评估项目的测试对象不是某一个年级，而是15岁3个月到16岁2个月的学生，跨了至少两个年级，且不同国家和地区使用的教材也不同，因此考核“素养”是其唯一理性的选择。这种考查目的和方式，对于解决现有高考和中考带来的“死记硬背”弊端无疑是极有意义的。

　　国际学生评估项目将“素养”定义为学生在生活情境中应用相关知识和技能的能力。例如，2015年重点考查的科学素养被定义为作为公民参与科技相关的事务的能力，包括解决生活中与科学技术相关的问题，并有科学的意识，会科学反思等。与传统的学科测试相比，国际学生评估项目强调学生终身学习和未来职业发展所需的应用知识的能力和批评思维能力。我国新一轮基础教育课程改革也提出了把问题解决、批判思维等能力培养与学科知识相结合的理念，然而目前绝大多数的标准化考试仍然拘泥于考查课本里的知识点，与国务院考试招生制度改革方案要求的重点考查运用所学知识发现问题和解决问题的能力还存在不小差距，而国际学生评估项目为我们提供了范本。

　　提供了命题组考科学化和规范化的范本

　　国际学生评估项目的测试框架由测量专业人员和多国学科专家共同制定，专家组对素养的各个维度进行十分详尽的阐述。例如，2015年重点考查的科学素养，其测试框架为在社会生活背景下的科学能力、知识和态度。具体来说，社会生活背景包括个人、地区和全球三个层次；能力包括科学地解释现象、设计和评估科学研究的方法、解释数据和论据三个方面；知识包括事实性、过程性和认知性三类；而态度则包括对科学技术、环境和科学研究的方法三方面。在这一框架下，专家组确定测试蓝图，即严格规定三个层次的背景下，三种能力和三类知识分别占多少比重，不同难度的试题分别占多少比重等。框架的细致划分使得组卷的随意性大幅降低，可以在很大程度上确保测试的内容效度。此外，测试框架经过反复的讨论修改，最终确定后会在一段时间内保持稳定，从而使得不同年份测试内容的可比性大大提高，为各国分析本国在一段时间内的发展变化提供了基础。

　　国际学生评估项目的命题和组卷过程也与我们较多依赖命题人员经验的做法不同，它在更大程度上结合了专家意见和客观数据。大致来说，第一轮由专业命题人员和各国学科专家提供实际测试题目4倍左右的试题，之后经过专家组“磨题”和小规模施测，选出其中在内容和难度上更为适切的1/2左右的试题。各国进行翻译和本土化后，选择1000名左右的学生参加国际学生评估项目在本国的试测，测量专业人员对试测数据进行细致的分析，包括题目的难度、区分度、与统计模型的拟合度、对不同性别和不同地区学生的公平性等。依据试测数据的分析结果，选择内容和难度适宜、国际可比性等各方面性能

　　良好的题目，组成最终测试的试卷。这种做法保障了实测试题的质量，也在很大程度上保证了测试的信度。

　　运用最新考试评价技术，科学性与公平性有机统一

　　在测试结果的计算方面，国际学生评估项目运用了项目反应理论模型。使用项目反应理论模型的一个重要优势就是可以相对简便地对不同年份的测试结果进行等值化处理，即不同次的考试之间，尽管试题有所不同，成绩仍直接可比。等值技术目前已在很多国外的大型标准化考试中得到运用（如TOEFL、GRE等），这种统计技术对于题库建设和构建计算机自适应测试都具有特别重要的意义。国际学生评估项目考试也运用了等值技术，多次参加测试的国家和地区可以通过直接比较测试结果，了解自身教育质量的变化。

　　等值技术对我国的考试评价改革有着很重要的意义。在我国最新出台的高考改革方案中，一年多考已成趋势。目前已有地区英语考试确定一年两考。在没有等值的情况下，两次考试的成绩不可比，使用百分位排名又会导致学生哪怕第一次已经考了高分也要参加第二次，进行“卡位”以保持相对优势。等值为未来完善一年多试提供了可能的技术支持。此外，等值也可以运用到增值评价中，采集学生发展的纵向数据，改变原来只关注学生在某一个特定时间的状态的做法。

　　除了等值外，国际学生评估项目还运用项目反应理论对试题性能的跨语言、跨文化可比性进行细致的检验，即项目功能差异检验。不同国家和地区要对比国际学生评估项目成绩，必须首先保证试题对于这些国家和地区的学生是公平的，无论是那个地区的学生，只要能力相同，得分的几率就相同。这种统计检验的方法也适用于验证我国高厉害考试对不同群体的公平性。例如，近年来关于我国高考试题的取材可能对农村学生不利的问题被广泛关注。我们可以借鉴国际学生评估项目检验试题的国际可比性的这种方法，分析客观数据，来证实是否存在对农村学生不利的因素，为提高命题质量、保障试题的公平性提供参考。

　　另外，在成绩报告方面，国际学生评估项目在给出学生各科得分的同时，还报告该生成绩对应的能力等级。国际学生评估项目的能力等级的划分是通过测试数据分析与专家组对题目内容的质性分析相结合的方法设定的。每种素养都划分为六个等级，五级及以上为优秀，一级及以下为不合格。每一个能力等级都有描述性定义，说明处于该等级的学生已经具备了哪些能力。相比于目前大多数考试仅仅为学生提供考试分数和排名的做法，划分能力等级并进行细致的说明更有助于学生和学校了解自身的发展状况，同时也有助于改变过去“分分计较”的考分反思方式。

　　我国考试招生制度改革的深入推进，对于考试评价技术的要求空前提高，教育测评领域急需理念和技术的快速提升。我国目前的大部分考试主要以课程标准为基础，以学科知识为中心，围绕考试大纲进行命题，考试结果仅报告原始得分，与强调核心素养考查、考试选择性、评价对教学反馈等趋势和要求差距仍然较大。国际学生评估项目考试对我们的意义，远不止于与其他国家比试高低。它为我们尝试构建应用能力导向的测试，提高命题组卷的系统性和科学性，通过等值建立横向或纵向可比的测评体系等，提供了重要思路和参照。

作者黄晓婷系北京大学中国教育财政科学研究所副研究员

（责编：xwd）