赛题名称:KDD Cup '23: Multilingual Recommendation Challenge
赛题链接:https://www.aicrowd.com/challenges/amazon-kdd-cup-23-multilingual-recommendation-challenge
赛题类型:推荐系统、文本生成
赛题介绍
对客户购物意图建模是电子商务商店的一项重要任务,因为它直接影响用户体验和参与度。准确了解客户正在搜索的内容,例如他们是否正在寻找带有搜索查询“苹果”的电子产品或杂货,对于提供个性化推荐至关重要。
基于会话的推荐利用客户会话数据来预测他们的下一次购买,随着数据挖掘和机器学习技术的发展而变得越来越流行。然而,很少有研究在现实世界的多语言和不平衡场景下探索基于会话的推荐。
为了弥补这一差距,我们提出了“多语言购物会话数据集”,这是一个由来自六个不同地区的数百万用户会话组成的数据集,其中产品的主要语言是英语、德语、日语、法语、意大利语和西班牙语。数据集不平衡,法语、意大利语和西班牙语的产品少于英语、德语和日语的产品。
赛题任务
本次比赛的主要目标是构建基于会话的高级算法/模型,直接预测下一个参与产品或生成其标题文本。我们提出的三个任务是:
- 下一个产品推荐
- 对训练数据不足地区的进行产品推荐
- 下一个产品标题生成
Task 1
任务 1 旨在根据客户的会话数据和每个产品的属性,预测客户可能会参与的下一个产品。
任务 1 的测试集包含来自英语、德语和日语语言环境的数据。参与者需要创建一个程序,可以预测测试集中每个会话的下一个产品。
参与者应提供一个 parquet 文件,其中每一行对应于测试集中的一个会话。对于每个会话,参与者应根据会话中的历史参与预测最有可能参与的 100 个产品 ID (ASIN)。
Task 2
此任务的目标类似于任务 1,而测试集由法语、意大利语和西班牙语构成。在任务 2 中,我们关注这三种未被充分代表的语言的表现。鼓励迁移从具有足够数据的语言中获得的知识,例如英语、德语和日语,以提高法语、意大利语和西班牙语的推荐质量。
Task 3
任务 3 要求参与者根据他们的会话数据预测客户将使用的下一个产品的名称。与专注于推荐现有产品的任务 1 和 2 不同,预测新产品或“冷启动”产品提出了独特的挑战。
生成的标题有可能改进各种下游任务,包括冷启动推荐和导航。任务 3 的测试集包括来自所有六个语言环境的数据,参与者应提交一个 parquet 文件,其中包含为输入文件中的每一行/会话生成的标题。标题应以字符串格式保存。
数据集
发布的数据集是匿名的,不代表生产特征。多语言购物会话数据集是匿名客户会话的集合,其中包含来自六个不同区域的产品,即英语、德语、日语、法语、意大利语和西班牙语。它由两个主要部分组成:用户会话和产品属性。
用户会话是用户按时间顺序使用过的产品列表,而产品属性包括各种详细信息,如产品标题、本地货币价格、品牌、颜色和描述。
数据集分为三个部分:train, phase-1 test, and phase-2 test。对于任务 1 和任务 2,每种语言的比例大致为 10:1:1。对于Task 3,第一阶段测试和第二阶段测试的样本数量固定为10,000。
这三个任务共享同一个训练集,而它们的测试集是根据它们的特定目标构建的。
- 任务 1:使用英语、德语和日语的数据
- 任务 2:使用法语、意大利语和西班牙语的数据,鼓励任务 2 的参与者使用迁移学习来提高他们的系统在测试集上的性能。
- 任务 3:测试集包括未出现在训练集中的产品,要求参与者根据用户会话生成下一个产品的标题。
表 1 总结了数据集统计信息,包括会话数、交互、产品和平均会话时长。作为 KDD Cup 比赛的一部分,该数据集将公开提供,每件产品都由唯一的亚马逊标准识别码 (ASIN) 标识,从而可以轻松地从网络中提取更多信息。
参赛者可以自由使用外部信息源来训练他们的系统,例如公共数据集和预训练的语言模型,但在描述他们的系统时必须声明超出提供的数据集。
评价指标
- 任务1:Mean Reciprocal Rank (MRR).
- 任务2:Mean Reciprocal Rank (MRR)
- 任务3:bilingual evaluation understudy (BLEU)
赛题日程
- 开始日期:2023 年 3 月 15日
- 结束日期:2023 年 6 月 14日
- 获胜者公布:2023 年 6 月 14日
赛题奖金
三个任务都有现金奖励。对于每个任务,排行榜上的前三名将赢得以下现金奖励。
- ? 第一名:$4,000
- ? 第二名:$2,000
- ? 第三名:$1,000