清华学生也赖床·来自校园大数据的教育测量

基于校园无线网络和手机应用的大规模教育测量

《基于校园无线网络和手机应用的大规模教育测量》是2016年春季学期立项的研究生教改综合改革类项目,项目期限1年。来自清华大学交叉信息研究院的博士周梦宇(现为微软亚洲研究院副研究员)和交叉信研院、计算机系、网络中心的师生一起,通过大数据对清华几千门课程中学生的出勤、走神、自习等行为进行了大规模、非侵入式的测量。

那些年上课签过的到

在你的想象中,清华学生是如何学习的呢?他们会翘课迟到早退么?清华的老师们是如何教学的呢?他们授课时有多少学生神游天外呢?

I wanna study!

为了得到师生们在教育教学过程中的行为数据,并给他们以反馈,学校的老师们可是操碎了心:课堂上的点名签到、每学期结束时的在线调查问卷……等等!你还记得帮路(chuang)上的舍友代签的那堂课么?你曾面对厚厚的问卷,不耐烦而一路默认选项么?这些传统的教育测量方式,常常面对着耗时耗力、数据质量差(主观或模糊的评估、侵入式的测量、较小的样本量、过时的回忆和容易出错的过程等等)的问题。

幸运的是,我们生活在移动互联网、大数据、云计算、人工智能、物联网飞速发展的时代。以清华为例,自2011年起,学校就开始了100多个建筑的WiFi无线网络部署;校园上有TUNet 自动连网助手、Tsinghua Now 即刻清华、AtTsinghua等等丰富多样的校园手机应用;校园教务系统和网络学堂从21世纪初就融入了师生们的日常生活;遍布整个校园公共区域的摄像头无时不刻在记录着路人们的行踪和表情…… 从这些数据中,我们可以通过统计分析、机器学习的工具,来回答关于教育教学方方面面的问题。

EDUM System

在清华,周梦宇博士带领的团队搭建了EDUM(Education Measurement)教育测量系统。他们通过校园上现有的大规模数据,推断学生的移动轨迹和学习行为、测量实时客观的教育教学数据,从而帮助学校、老师、学生更好地了解、诊断教学,并做进一步的决策。下面让我们以学生行为、课程质量、学生成绩为例,来看看清华教育教学改革的最前沿进展。

"老油条"和"夜猫子"

学生有翘课么?迟到早退的情况如何?不同年级的学生出勤情况类似么?

Picture1-1
Figure 1:清华一天的出勤率变化。橙色圆点线代表出勤率上界,蓝色方点线代表出勤率下界。

清华的学生们每天也会经历"床的诱惑"以及"控制不住自己"的过程。上图展示了在清华平均每天从早到晚14小节课(每小节45分钟)的出勤率。在早上我们可以看到出勤率下界(方形蓝色折线)上升的过程,很显然同学们在赖床。而随着一天从早到晚,出勤率整体是缓慢下降的--很可能随着一天精力被逐渐消耗,学生更加难以控制自己,逃课的诱惑作用更加明显。

Screen-Shot-2017-09-03-at-6.01.24-PM
Figure 2:不同年级学生的出勤和夜猫子行为对比。图中包括了从2015年入学(大一)到2012年入学(大四)的学生,出勤率仍然分为上界和下界,是否为夜猫子则通过学生的出勤和迟到情况推测。

从另一个角度来看,不同的学生群体的行为有何不同呢?上图中我们对比了从大一到大四的学生的出勤、迟到、早退、夜猫子的比例。很明显:高年级的学生出勤情况更加糟糕(老油条!);而大二、大四的学生更容易是夜猫子。一个可能的解释是,大一的学生仍然过着高中时规律的生活,而大三的学生面临着即将到来的就业和深造压力,需要在学业上更加投入;至于大二和大四的夜晚,则更可能充满了清华学生放飞青春的美好回忆。

举头望黑板,低头思网友

不同院系开设的课程质量高下如何?上课到什么时候学生开始走神了?

Screen-Shot-2017-09-04-at-12.15.45-AM
Figure 3:清华课程的手机使用率(分钟级别)。清华课程通常为2到3小节,图中已将课间休息时间去掉。

曾经站在讲台上的老师可能都面对过这样的困惑:我的课程是不是不够吸引人?为什么学生都低头玩手机去了呢?上图展示了几千位学生在几千门清华课程中的手机使用率,我们可以看到:在每小节开始的前10分钟左右,设备使用率快速下降整个课程随着时间的增长,手机使用率在缓慢上升(学生们很可能开始走神了!);在接近下课时(90或135分),同学们开始停止使用手机(迫不及待想离开?)。

清华版学霸秘籍

优生和差生常见的行为是什么样的?不同的学生群体进步和退步的常见原因是什么?

Screen-Shot-2017-09-04-at-12.01.25-AM
Figure 4:GPA等高图。左侧为自习时长和自习走神率,右侧为出勤率和课堂走神率。

除了课内的出勤情况和走神,课外的自习和生活习惯和学生的背景(比如院系年级、过往的知识积累)都会对学生的GPA和进退步造成影响。上图展示了GPA和自习时长、出勤率的正相关,以及和自习走神、课堂走神的负相关。但是学生行为间复杂的相互关系和共同作用使得刻画学习表现十分困难,是时候祭出机器学习算法了!

首先是找出常见的行为模式,譬如通过决策树模型分析清华两个学期两千多名学生的近30种特征,可以发现男生和女生中"学霸"(GPA高于90分)的常见行为很不一样:男学霸大都会选择简单的课程(往年给分大于87分)、较少的学分(一学期不超过23学分)、宽松的课表(一学期多于238个半天没有课);而女学霸大都有较高的出勤率(高于54%)、较低的课堂走神率(低于30%)、较少的学分(不超过22学分)。

更进一步,我们可以尝试通过大规模的数据来对学习成绩和进退步进行预测,通过线性回归、K近邻等算法,对每学期清华百分制GPA的预测可以达到平均误差2.66分、均方差5.60分,而成绩的进步退步值的预测可以达到平均误差2.55分、均方差5.53分。

大数据与人工智能辅助的教育

数据驱动的实体教育测量是一个刚刚兴起的领域。来自于校园无线网络、移动应用、教务系统、网络学堂、校园卡、监控摄像等设施和服务的大规模数据,使得统计分析、数据可视化、机器学习、人工智能的技术在教育领域有了新的用武之地。

Screen-Shot-2017-09-03-at-11.53.02-PM

在清华大学和微软亚洲研究院的支持下,EDUM教育测量系统也正从研究中走向在学校的实际部署和使用,帮助学校和师生提高教育教学的质量与效率。大数据分析和人工智能的进展,终将帮助人类更好地学习和了解我们自己与这个世界。