关键词:
复杂网络
人类动力学
计算社会科学
成绩预测
同伴影响
摘要:
大数据分析追踪很多社会过程,尤其是在受到社会大众普遍关注的教育场景。细致深入理解教育场景中涌现的复杂现象,有助于为教育实践提供数据支持,为教育管理者实施管理决策提供科学参考,具重要的学术和应用价值。探究教育过程中个体与外部环境之间的相互作用,不仅是教育学研究的核心议题,同时也吸引了包括计算机科学、复杂性科学、网络科学、心理学、社会学和经济学等多个学科领域的广泛关注。受限于数据来源与分析工具,传统的对教育学的研究面临着局限性。在数据上,存在规模偏小、时效性不强、难以排除社会期望偏差的问题。在方法上,传统计量分析方法难以精准刻画个体与外部环境相互作用时涌现的复杂性,对其未来变化的预测能力也不足。随着信息化技术的迅猛进步和大数据时代的降临,研究个体与复杂外部环境之间互动的新机遇应运而生。多种数据获取手段和数据类型的丰富多样性极大地提高了数据的可获取性,大规模高质量数据的积累促进了分析个体与外部环境相互作用的方法论变革和工具创新。在新机遇之下,随着使用实证方法理解教育的工作逐步累积,催生出计算教育学这一交叉学科研究分支,专注于利用大规模真实数据和量化方法分析教育场景中的各种复杂现象和问题。
本文聚焦于学生行为数据分析这一重要的维度,将按照作用范围由局部到全局的顺序,分别从个体行为、相互作用、群体行为三个层面,以大规模实证数据分析的形式探索高等教育场景下计算教育学的方法和应用。本文的研究内容和主要创新点总结如下。
在个体行为分析层面,基于无干预行为数据,研究和定量刻画了学生行为规律性及其对学生成绩可预测性。首先,从近两万名大学生总计约28,000,000条智能校园卡刷卡记录产生的无干预校园日常行为中,利用基于时间分箱的方法提取了两类高阶行为特征:一类是谨严特征,代表生活行为的规律性;一类是勤奋特征,代表学习的努力程度。然后,利用一个基于熵的指标——真实熵,用于刻画和区分不同个体谨严行为的规律性程度。接下来,分析谨严特征和勤奋特征分别与学业成绩的相关性,发现谨严特征对学业成绩有独立的影响力。这是谨严特征首次被提出是一个与学习行为不直接相关,但与学业成绩显著正相关的行为特征。最后,利用Rank Net模型和两类高阶行为特征对学业成绩进行预测,发现在成绩预测模型中引入谨严特征之后能提高预测的准确性。
在相互作用分析层面,基于复杂系统零模型,研究了学生之间学业成绩的相互影响,揭示了同伴影响的程度和影响因素。首先,阐述根据5,000余名大学生在校园住宿的寝室随机分配这一数据特点,研究了寝室寝室环境中的同伴影响。然后,将学业成绩划分为不同等级,指出寝室内学生成绩等级代表的组合,其真实概率和理论概率存在明显差异,并且室友的成绩存在趋同现象。接下来,提出刻画室友成绩相似程度的同化度量指标,并结合零模型技术证明寝室环境中同伴影响的存在性和量化其强度。这是首次使用零模型方法度量了寝室环境中的同伴影响,外在表现为室友之间的成绩相似性显著高于随机情况,达到10.7%。进一步,利用回归模型分析寝室环境中影响学业成绩的因素,发现学生的学业成绩受到室友平均成绩、室友成绩差异、自身成绩在寝室内排名这些高阶因素的影响。最后,结合零模型技术和证伪检验说明这些因素对学业成绩影响的显著性。
在群体行为分析层面,根据社交行为中蕴藏个人偏好的机制,基于群体尺度上自发的交互时空数据构建了学生的社交网络。进一步研究了社交网络的结构特征,及其与学生心理健康状况的联系。首先,根据学生在校内用餐场所总计21周的纵向签到时空数据,利用时空推断的方法构建了线下社交网络,称为学生共现网络。然后,分析学生共现网络拓扑结构的变化,发现与学生的在不同时期的人际交往相关。最后,关联分析学生在共现网络中的节点中心性和积极心理健康领域的繁荣心理特质,发现学生共现网络中的节点中心性和繁荣特质的提升显著正相关,并且相关性总体上有随时间增强的趋势。
计算教育学是一个充满活力的交叉学科研究分支,在学生行为数据分析这一维度面临着机遇与挑战。按作用范围由局部到全局的顺序,本文从个体行为、相互作用、群体行为三个层面,以三个大规模实证数据分析展示了学生行为数据分析的应用。在方法论上,结合大规模无干预行为数据和交叉学科分析工具的研究范式,必然会成为行为数据分析领域的研究主流。