比赛名称:Learning Equality - Curriculum Recommendations
通过将 K-12 内容与目标主题进行匹配
比赛链接:https://www.kaggle.com/competitions/learning-equality-curriculum-recommendations
比赛类型:内容聚类、细粒度分类
比赛背景
比赛的目标是将教育内容与课程中的特定主题相匹配的过程。选手将开发一个准确高效的模型,该模型在 K-12 教育材料库上进行训练,这些材料已被组织成各种主题分类法。
目前将数字材料与国家课程相结合的努力是手动的,需要时间、资源和课程专业知识,并且需要提高该过程的效率以实现可扩展性和可持续性。
比赛任务
您面临的挑战是预测内容与主题的匹配,以减少用户搜索和发现相关内容时间。
评价指标
提交的内容将根据他们的平均 F2 分数进行评估。均值是以样本方式计算的,这意味着 F2 分数是为每个预测行计算的,然后取平均值。
数据描述
训练集包括来自 Kolibri 内容库中的主题树语料库,以及额外的非公开对齐频道,以及具有较少粒度或较低质量对齐的补充频道。
- topics.csv包含数据集中每个主题的一行。主题被组织成“频道”,每个频道包含一个“主题树”。
- content.csv包含数据集中每个内容项的一行。
- correlations.csv与训练集中的主题关联的内容项。单个内容项可能与多个主题相关联。在每一行中给出一个 topic_id 和所有关联的 content_id 的列表。
比赛赛程
- 2023年3月7日:组队截止日期。
- 2023年3月14日:最终提交截止日期。
赛题奖金
排行榜奖品
- 第一名 - 12,000 美元
- 第二名 - 8,000 美元
- 第三名 - 5,000 美元
- 第四名 - 5,000 美元
效率奖
- 第一名 - 12,000 美元
- 第二名 - 8,000 美元
- 第三名 - 5,000 美元
解题思路
赛题是一个非常规的赛题,由主题和内容两个部分组成。主题和内容分别提供了额外的信息字段,因此我们需要将主题和内容进行匹配。
可以考虑从如下角度进行解题:
- 将主题和内容嵌入,然后计算相似度。
- 将主题和内容匹配抽象为二分类。
- 从图的角度进行匹配主题和内容。