比赛名称:AMP®-Parkinson's Disease Progression Prediction
使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展。
比赛链接:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction
比赛类型:数据挖掘、时序回归
比赛背景
帕金森病是一种致残性脑部疾病,会影响运动、认知、睡眠和其他正常功能。不幸的是,目前没有治愈方法——而且这种疾病会随着时间的推移而恶化。
据估计,到2037年,美国将有 160 万人患有帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在这种疾病的发作和恶化中起着关键作用。在数据科学的帮助下更好地理解这一点,可以为开发新的药物疗法以减缓帕金森病的进展或治愈帕金森病提供重要线索。
目前已经产生了关于 10,000 多个受试者的复杂临床和神经生物学数据,以便与研究界广泛共享。使用这些数据发表了许多重要发现,但仍然缺乏明确的生物标志物或治疗方法。
竞赛主办方 Accelerating Medicines Partnership® 帕金森病 (AMP®PD) 是政府、行业和非营利组织之间的公私合作伙伴关系,由美国国立卫生研究院 (FNIH) 基金会管理。
比赛任务
本次比赛的目标是预测 MDS-UPDR 评分,该评分衡量帕金森病患者的进展情况。您将开发一个模型,该模型根据帕金森病患者与年龄匹配的正常对照组的蛋白质和肽水平随时间变化的数据进行训练。
评价指标
提交的内容在 SMAPE 上根据预测值和实际值进行评估。当实际值和预测值都为 0 时,定义 SMAPE = 0。
数据描述
本次比赛的目标是使用蛋白质丰度数据预测帕金森病的病程。参与帕金森病的完整蛋白质组仍然是一个悬而未决的研究问题,任何具有预测价值的蛋白质都可能值得进一步研究。
数据集的核心包括蛋白质丰度值,这些蛋白质丰度值源自从数百名患者收集的脑脊液样本的质谱读数。每个患者在多年的过程中贡献了几个样本,同时他们还对帕金森病严重程度进行了评估。
这是一个时间序列代码竞赛:您将收到测试集数据并使用 Kaggle 的时间序列 API 进行预测。
train_peptides.csv 肽水平的质谱数据。肽是蛋白质的组成亚基。
- visit_id - 访问的 ID 代码。
- visit_month - 就诊月份,与患者首次就诊相关。
- patient_id - 患者的 ID 代码。
- UniProt - 相关蛋白质的 UniProt ID 代码。每个蛋白质通常有几个肽。
- Peptide - 肽中包含的氨基酸序列。相关代码见下表。一些罕见的注释可能未包含在表中。
- PeptideAbundance - 样品中氨基酸的频率。
train_proteins.csv 从肽水平数据聚合的蛋白质表达频率。
- visit_id - 访问的 ID 代码。
- visit_month - 就诊月份,与患者首次就诊相关。
- patient_id - 患者的 ID 代码。
- UniProt - 相关蛋白质的 UniProt ID 代码。每个蛋白质通常有几个肽。
- NPX - 标准化的蛋白质表达。样品中蛋白质出现的频率。可能与组成肽没有 1:1 的关系,因为某些蛋白质包含给定肽的重复拷贝。
train_clinical_data.csv
- visit_id - 访问的 ID 代码。
- visit_month - 就诊月份,与患者首次就诊相关。
- patient_id - 患者的 ID 代码。
- updrs_[1-4] - 患者在统一帕金森病评定量表 N 部分的得分。
- upd23b_clinical_state_on_medication - 患者在 UPDRS 评估期间是否正在服用左旋多巴等药物。
- supplemental_clinical_data.csv 没有任何相关 CSF 样本的临床记录。该数据旨在提供有关帕金森病典型进展的更多背景信息。
example_test_files/ 旨在说明 API 功能的数据。
amp_pd_peptide/ 启用 API 的文件。
public_timeseries_testing_util.py 一个可选文件,旨在更轻松地运行自定义离线 API 测试。
比赛赛程
- 2023年5月11日:组队截止日期。
- 2023年5月17日:最终提交截止日期。
赛题奖金
- 第一名:25,000 美元
- 第二名:20,000 美元
- 第三名:15,000 美元
解题思路
赛题是一个典型的数据挖掘赛题,拥有多张表,且是按照患者作为样本。如果拥有额外的专业知识更好。
在解决题目时,需要考虑:
- 支持多维输入的时序预测模型
- 模型预测速度,需要实时预测
- 模型稳定性和波动性
按照样本个数,应该是树模型和基础时序模型为主要的预测模型。