2022年10月29日,第八届全国教育实证研究论坛隆重召开。苏州市教育质量监测中心原主任罗强受邀参加会议,并在会议上作了《区域教育质量监测数据库的建设与应用——以苏州市教育质量监测为例》专题发言。
罗强主任基于监测中心沈健老师的研究成果,系统介绍了苏州监测的数据库系统构架,以数据湖的理念为基础,通过智能技术和大数据技术开展了教育监测数据库方面的探索和建设,解决了监测数据库建设方面的世界性难题,该项成果当即引发强烈反响。会后,Best Evidence in Chinese Education (BECE) 杂志社主编第一时间联系我们,要求发表本次发言中的论文,并直接跳过期刊的初审、中审,直接过终审,希望在第一时间发表我们的研究成果。主编说美国同行非常惊讶,没想到中国的监测做得这么专业,更没想到一个地级市的监测已经走在了世界前列。
中心迅速将该成果翻译成英文,美国同行也找了一个权威编辑帮助修改,翻译版本经过全球知名专家编辑审阅定稿,他们争分夺秒,克服了复活节和圣诞节假期的影响,文章仅仅在一个月之后,就使得苏州教育质量监测的研究成果走出中国,登上了全世界监测评估最前沿舞台。
目前BECE的网站上显示该文发表于Best Evidence in Chinese Education (BECE) 杂志2022年的第12期。Best Evidence in Chinese Education ( BECE )由Best Evidence in Brief (BEiB) ( http:/www.cnbeb.org.cn:81/ ) 赞助出版,提供对学科现状的权威、批判性调查以及中国教育各个领域的问题。BECE接受该期刊的原创文章和以中文发表的文章的英文版本。文章的翻译版本首先必须经过全球知名专家编辑的审阅和批准,并在BEiB网站上发布。该杂志所发内容均为相应领域最前沿的内容。
一起来看原文!
✦ +
+
区域教育质量监测数据库的建设与应用
——以苏州市教育质量监测为例
作者:沈健
江苏省苏州中学园区校
现挂职于苏州市教育质量监测中心
作者:罗强
苏州市教育质量监测中心原主任
现任苏州市教育评价学会会长
//
摘要:教育质量对学校教育事业发展有着决定性作用,是衡量学校办学绩效、教育发展以及人才培养的重要指标。在大数据时代,如何构建专业化、智能化的教育质量监测数据库,成为制约教育质量监测事业快速发展的现实难题。本文以苏州市教育质量监测数据分析系统数据库的构建为例,结合区域级教育质量监测数据分析中面临的问题,运用数据湖的理念,从业务流程和逻辑结构两个方面对区域教育质量监测数据库的建设进行了探索和应用,以保障教育质量监测工作的顺利开展。
关键词:教育质量监测;数据分析系统;数据湖;数据库
教育质量对学校教育事业发展起到决定性作用,是衡量学校办学绩效、教育发展以及人才培养的重要指标。构建义务教育质量监测体系是深化新时代教育评价改革,健全立德树人落实机制,扭转不科学的教育评价导向的一项重要举措。2020年10月中共中央国务院印发的《深化新时代教育评价改革总体方案》[1]提出,应创新评价工具,利用人工智能、大数据等现代信息技术,探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价。
一、教育质量监测数据库方面的研究背景
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,以数据为中心,利用采集、整理、分析和可视化等工具,实现数据间的互动互联,是实现科学决策和研究的重要方法。
教育质量一般包括学校办学、教师教学、学生学业和家庭教育等多个方面的成果与质量。教育质量监测数据库是通过对参与监测的学校、教师、学生和家长的相关信息进行采集和分析,利用现代信息技术、计算机技术、分析数据挖掘等手段进行存储、分析的数据仓库。
国内关于义务教育质量监测的研究主要着眼于两个方面。一是义务教育质量监测的实施环节及其保障要素。主要包括:监测工具研发[2]、监测组织机构建设及运行[3]、监测结果应用[4][5]、信息技术对监测的保障[2][6]。二是监测项目实施主体和项目体系构建,如国家监测、省级监测、地市监测和区县监测[7][8][9][10]。以上两个方面互相交织,构成了义务教育质量监测研究的内容体系。但对于如何运用大数据技术及相关理论,建立教育质量监测数据库、构建教育质量监测数据分析系统,相关研究文献比较缺乏。因此,如何构建专业化、智能化的教育质量监测数据库,则成为制约教育质量监测事业快速发展的现实难题。
本文以苏州市教育质量监测数据分析系统数据库的构建为例,结合数据分析中面临的问题,对区域教育质量监测数据库的建设进行探索和分析。
二、苏州教育质量监测的发展状况
教育质量监测领域涉及到海量的数据。以2021年苏州市义务教育质量监测为例,数据采集阶段产生6715余万条数据记录,每条数据记录包含内容维度、能力、素养等不同结构、不同类型的数据。在数据分析阶段,还需调用前几年的相关数据进行追踪分析,因此,每年需要加工的原始监测数据达上亿条。面对如此数量庞大、结构复杂的数据,教育质量监测数据库的规划和建设是必须面对和迫切需要解决的问题。
江苏省苏州市自2015年开始启动了“义务教育学业质量监测项目”,苏州市教育质量监测中心(以下简称“苏州监测中心”)对全市初中校学生进行连续追踪监测[11],到2021年累计了参测学生超过130万人次,积累监测数据超过1.8亿条,累计发放监测报告14000余份。同时,苏州监测中心积极响应人工智能时代的教育评价改革,强化智能技术在监测实践中的应用,构建了具有苏州特色的区域教育质量监测数据库,并在此基础上建立了数据分析系统,逐步实现了标准化数据治理、智能化数据分析、可视化数据呈现等技术突破。
苏州监测中心结合自身特点,根据数据分析流程构建了数据分析系统框架(如图1),将数据分析工作分解为6个流程,并在数据分析系统中将之固化为12个功能模块。
图1 苏州监测数据分析系统流程及系统构架
系统构架承接数据采集环节,并为数据呈现环节提供数据支撑。在数据分析流程中,主要包括“数据导入、数据清理、质量分析、建立项目、计算分析和数据推送”六个环节。
在上述框架的基础上,数据分析系统进一步建立了算法支撑和数据湖二个结构层级,构成了完整的分析系统构架。其中算法支撑层主要包括4个算法库,数据湖主要包括“原始数据、虚拟分层数据、用户权限控制、脱敏后项目数据、算法规则资源和结果呈现数据”6个数据库。(如图2)
图2 苏州监测数据分析系统数据库规划
三、区域教育质量监测数据库的建设路径
在大数据和数据科学的新时代,拥有与业务流程一致的集中式数据架构至关重要,在教育质量监测领域也同样如此。优秀的数据库架构应该能随着监测业务增长而扩展,并随着技术进步而发展,本文从区域监测的视角出发,以苏州教育监测数据库的构建为样本,探讨关于区域级教育监测数据库的构建路径。
苏州监测中心以数据湖(Data Lake)的理念构建监测数据分析的数据库。数据湖把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据[12],已经成为企业应用大数据重要工具。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),形成一个容纳所有形式数据的集中式数据存储,就像自然界的巨大湖泊,汇聚不同数据源的溪流并存储,根据不同的需求输出有价值的数据。对于监测数据来讲,数据湖中不仅包含来自各个平台的数据:如题库系统、考务系统、扫描阅卷系统等,也包含多种不同的文件类型:如电子表格、扫描图像、数据库等,还包含数据分析中各个流程的过程性数据和结果性数据,以满足多元化的数据信息交叉分析以及大容量、高速度的数据管道,也便于对数据的全生命周期进行管理,包括任意一条数据的接入、存储、处理、应用过程是可追溯的,能够清楚的重现数据完整的流动过程。(如图3)
图3 苏州监测数据分析系统数据湖的示意图
数据库的构建必须能支持监测业务的流程,因此基于数据分析流程进行的设计是最关键的要素,其次是强调所有数据库的安全性、完整性和效率的逻辑结构设计。基于以上两点确定的数据库架构,才能明确各类存储的位置,并确保数据得到保护、有效存储和准确处理。