比赛名称:GoDaddy - Microbusiness Density Forecasting
预测下个月的微型企业密度
比赛链接:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting
比赛类型:结构化回归任务
比赛背景
美国的政策领导人努力发展更具包容性和抵御衰退的经济体。他们还意识到,随着技术的进步,创业精神从未像今天这样容易获得。无论是为了创造更合适的工作/生活平衡、追随激情,还是由于失业,研究表明,美国人越来越多地选择创建自己的企业来实现其财务目标。
挑战在于,这些“微型企业”通常太小或太新,无法出现在传统的经济数据来源中,这使得决策者几乎不可能研究它们。但数据科学可以帮助填补空白,并提供对与这些业务相关的因素的见解。
大赛主办方GoDaddy是全球最大的面向全球创业者的服务平台。他们的使命是通过为他们提供在线发展所需的所有帮助和工具,为他们的全球 20 多万客户和世界各地的企业家社区赋能。
比赛任务
本次比赛的目标是预测给定地区每月的微型企业密度。您将开发一个根据美国县级数据训练的准确模型。
您的工作将帮助政策制定者了解微型企业,这是一种非常小的实体的增长趋势。更多信息将使新的政策和计划能够提高这些最小企业的成功和影响。
评价指标
提交的内容在 SMAPE 上根据预测值和实际值进行评估。当实际值和预测值都为 0 时,我们定义 SMAPE = 0。
数据描述
您在本次比赛中的挑战是预测美国各地的微型企业活动,以美国各县微型企业的密度来衡量。微型企业通常太小或太新,无法出现在传统经济数据源中,但微型企业活动可能与其他普遍感兴趣的经济指标相关。
由于历史经济数据随处可见,因此这是一场预测竞赛。预测阶段的公共排行榜和最终的私人排行榜将使用提交期结束后收集的数据来确定。您将进行静态预测,这些预测只能包含提交期结束前可用的信息。
关于县的大量数据是公开的,我们没有试图在这里收集所有数据。强烈建议您为功能使用外部数据源。
- train.csv:训练集
- test.csv:测试集
- revealed_test.csv:公开排行榜只会使用最近一个月的数据,任何早于该数据的测试集数据都将发布在 revealed_test.csv
- census_starter.csv:国人口普查局美国社区调查数据
比赛赛程
- 2023年3月7日:组队截止日期。
- 2023年3月14日:最终提交截止日期。
赛题奖金
- 一等奖:20,000 美元
- 二等奖:15,000 美元
- 三等奖:10,000 美元
- 四等奖:5,000 美元
- 五等奖:5,000 美元
- 六等奖:5,000 美元
解题思路
赛题是一个典型的结构化回归任务,且数据集非常小的,估计是未来非常热门的比赛。
赛题需要按照地区、年份对小维企业密度进行预测,因此赛题是非常容易过拟合的,因此建议使用简单的模型。
此外赛题是鼓励外部数据集,因此可以考虑使用外部数据。当然也需要预测经济未来的发展:
- 地图数据,经纬度信息
- 外部经济指标,宏观经济
- 人口流量信息