文章目录[隐藏]
赛题背景
空气污染是过早死亡的首要环境风险因素,但全球数百万人无法获得有关其当前当地空气质量的可靠数据。
目前没有任何一种卫星仪器能够提供地表空气污染物的信息,而现有的高质量地面监测仪价格昂贵,且覆盖范围存在很大差距。
利用广泛可用的卫星数据的模型有可能提供当地的每日空气质量信息。本次挑战赛的目标是使用遥感数据和其他地理空间数据源,来估算具有高空间分辨率(5 公里乘 5 公里)的每日空气污染水平。
赛题目标
本次比赛侧重于两项关键的空气质量指标:小于 2.5 微米的颗粒物 (PM2.5) 和二氧化氮 (NO2)。
为了训练和评估解决方案,我们提供了三个城市地区的数据:洛杉矶、德里和台北。这些地点有现成的卫星数据,但污染程度和历史数据各不相同。
赛题1:颗粒物PM2.5预测
小于 2.5 微米的颗粒物 (PM2.5)可以在大气中持续数天至数周,并深入人体肺部,增加患心脏病、下呼吸道感染和不良妊娠结局的风险。
https://www.drivendata.org/competitions/88/competition-air-quality-pm/
赛题2:微量气体NO2预测
煤、石油或天然气等化石燃料燃烧会在大气中形成二氧化氮 (NO2) ,在地表附近的生命周期很短,约为数小时。它会导致呼吸系统问题,同时还会促进臭氧和硝酸盐气溶胶(PM2.5 的组成部分)的产生。
https://www.drivendata.org/competitions/91/competition-air-quality-no2/
赛题数据
赛题提取的测量值来自卫星仪器的数据,任务是预测地表 PM2.5 和 NO2 水平。提供了高分辨率、每天更新和多个城市的卫星数据(观测指标包括:气溶胶光学深度、NO2 垂直柱密度)。
获胜方案
在比赛过程中总共来自 1,000 多名参与者的 1,200 多份参赛作品,与基准方案相比,优胜模型取得了显着的进步。尽管参赛者使用的方法略有不同,但存在一些共性:
- LightGBM在获奖者中特别受欢迎,特别有稀疏输入的时间序列数据。
- 鉴于卫星覆盖范围存在差距,解决缺失数据是获胜者数据预处理流程的关键部分。
- 对每个城市进度单独训练模型,然后进行集成是获胜的关键。
赛题1/第1名 Vishwas Chepuri
https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/1st%20Place
首先,对原始数据进行处理,然后使用网格方式均值插补法对数据进行插补。之后我们生成时间差异特征
我们使用了树模型作为基础模型,然后使用线性模型作为第二层模型进行了Stacking,整体的结构如下图所示。
赛题1/第2名 Raphael Kiminya
https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/2nd%20Place
最初我试验了原始竞赛数据集和各种模型。我很快就达到了得分稳定状态。我将注意力转移到外部数据集上,并选择了一个树模型来加速我的实验。
我阅读了参考文献,发现类似于空气湿度、土壤温度、土壤湿度、气温、风速、风向和降雨量/降水量,与标签相关比较大。
我也对比了按照位置单独建模 vs 一个模型的情况,最终按照位置进行单独建模。最终的解决方案是 45 个模型的平均集成。
赛题1/第3名 Kudaibergen Abutalip
https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/3rd%20Place
我从卫星数据中提取了每个网格的信息,并按照日期提取了年、月、日和派生特征。我还加入了风速、风向、平均编码和标签编码等位置信息。最终的模型是随机森林和梯度提升树,最终模型的参数使用optuna进行确定。
赛题2/第1名 A. David Lander
https://github.com/drivendataorg/nasa-airathon/tree/main/no2/1st%20Place
在阅读比赛介绍之后,我发现这是一个经典的时间序列预测情况,只有约 200 个独立数据点。核心是确保稳健的交叉验证、非常高的正则化和模型平均。
我使用了KFold进行交叉验证,间隔约30天,每次训练迭代中的折叠和参数轮换。LightGBM中的linear_tree参数,适合树进行线性回归,在本次比赛中效果比较好。