比赛名称:Predict Student Performance from Game Play
从 Jo Wilder 在线教育游戏中追踪学生的学习情况
比赛链接:https://www.kaggle.com/competitions/predict-student-performance-from-game-play
比赛类型:数据挖掘、知识跟踪
比赛背景
学习本应是有趣的,这就是基于游戏的学习的用武之地。这种教育方法允许学生在游戏框架内参与教育内容,使其充满乐趣和活力。
尽管基于游戏的学习正在越来越多的教育环境中使用,但仍有有限数量的开放数据集可用于应用数据科学和学习分析原理来改进基于游戏的学习。
大多数基于游戏的学习平台都没有充分利用知识追踪来支持个别学生。知识追踪方法是在在线学习环境和智能辅导系统的背景下开发和研究的。但教育游戏中对知识追踪的关注较少。
竞赛主办方 Field Day Lab 是威斯康星州教育研究中心的公共资助研究实验室。他们为许多学科和年龄组设计游戏,将当代研究带给公众,利用游戏数据来了解人们的学习方式。
比赛任务
比赛的目的是实时预测学生在基于游戏的学习过程中的表现。选手需要开发一个在游戏日志上训练的模型。
这次比赛将有助于推进对基于游戏的学习的知识追踪方法的研究。这次比赛将支持教育游戏的开发者为学生创造更有效的学习体验。
评价指标
提交的内容将根据其 F1 分数进行评估。
对于测试集中的每个 session_id / 问题编号对,您必须预测正确变量的二进制标签。
数据描述
测试集API
本次比赛使用了Kaggle的时间序列API,测试数据将以不允许访问未来数据的分组形式提供。
本次比赛的目的是使用在线教育游戏生成的时间序列数据来判断玩家是否会正确回答问题。共有三个问题检查点,每个问题都有一些问题。在每个检查点,选手都可以访问该部分之前的所有测试数据。
文件说明
- train.csv - 训练集
- test.csv - 测试集
- sample_submission.csv - 格式正确的样本提交文件
- train_labels.csv - 训练集中每个会话的所有 18 个问题的正确值
列名含义
- session_id - 事件发生的会话 ID
- index - 会话事件的索引
- elapsed_time - 从会话开始到记录事件之间经过了多长时间(以毫秒为单位)
- event_name - 事件类型的名称
- name - 事件名称(例如,标识 notebook_click 是打开还是关闭笔记本)
- level - 事件发生在游戏的哪个级别(0 到 22)
- page - 事件的页码(仅适用于与笔记本相关的事件)
- room_coor_x - 游戏内房间的点击坐标(仅适用于点击事件)
- room_coor_y - 游戏内房间的点击坐标(仅适用于点击事件)
- screen_coor_x - 相对于玩家屏幕的点击坐标(仅适用于点击事件)
- screen_coor_y - 相对于玩家屏幕的点击坐标(仅适用于点击事件)
- hover_duration - 悬停发生的时间(以毫秒为单位)(仅适用于悬停事件)
- text - 玩家在此事件中看到的文本
- fqid - 事件的完全限定 ID
- room_fqid - 发生事件的房间的完全限定 ID
- text_fqid - 的完全限定 ID
- fullscreen - 播放器是否处于全屏模式
- hq - 游戏是否是高质量的
- music - 游戏音乐是打开还是关闭
- level_group - 哪组级别 - 和哪组问题 - 此行属于 (0-4, 5-12, 13-22)
比赛赛程
- 2023年5月1日:组队截止日期。
- 2023年5月8日:最终提交截止日期。
赛题奖金
- 第一名:12,000 美元
- 第二名:8,000 美元
- 第三名:5,000 美元
- 第四名:5,000 美元
解题思路
赛题是一个典型的表格类型的数据挖掘赛题,但属于知识跟踪领域。考虑到比赛数据集字段,拥有如下特点:
- 需要考虑学生的自身知识
- 需要考虑问题的难度
- 需要考虑问题的内容
- 需要考虑学生的学习过程
按照历史比赛的经验,本次比赛可以使用深度学习模型,也可以使用树模型。如果使用深度学习模型,则是基于Transformer的序列建模。