有个比赛能让你快速入门并掌握机器学习和数据分析方法,实操实战解决真实企业的商业问题,助你收获实习、科研、留学offer。还有机会拿下高达50000美金的奖励,和全球顶尖的数据科学家决战光明顶。
竞赛介绍
Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。
除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。
只要你有才,只要你能解决问题,藤校offer和顶级互联网公司入职加薪均有可能。
适合人群
适合对date science、date mining、machine learning感兴趣的高中生;
有一定计算机背景的人群。是绝佳提升申请背景的赛事。
赛事说明
赛题示例
Allstate索赔预测挑战 - 使用客户的购物历史记录来预测他们购买的保险单
有害评论分类挑战 - 预测维基百科上有害评论的存在和类型
Zillow奖 - 构建一个机器学习算法,可以挑战Zesow,Zillow房地产价格估算算法
谷歌地标检索挑战 - 如果有图像,您能在数据集中找到所有相同的地标吗?
右鲸识别 - 识别航空照片中濒临灭绝的露脊鲸
大规模分层文本分类 - 将维基百科文档分类为约300,000个类别之一
泰坦尼克号:从灾难中进行机器学习,预测泰坦尼克号的生存几率
房价预测:回归方法
猫与狗:创建一种算法去区分猫与狗
纽约出租车行程持续时间:通过数据改善乘车时间预测
商店销售预测
新用户预定预测
基本流程
注册账号(一人只能有一个账号)
选择一个比赛项目
加入竞赛,理解项目需求
下载数据,训练模型,得出结果
提交结果(一般只需提交预测结果,每天可多次提交)
一直到时间截至,评出最优者
获奖的队伍必须提交源代码
注:上传过一次结果之后,就直接加入了这场比赛。正式比赛中每个团队每天有5次的上传机会,然后就要等24小时再次传结果,playground的是9次。
比赛技能要求
编程语言:最基础的入门学者也得先学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可以迅速入门。
探索数据:除编程语言外,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。
模型训练:熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战:从初级可以逐渐增加难度。
比赛形式
Classic:在比赛开始后,用户可以访问完整的数据集。并可以选择在本地或在线进行建模、预测生成预测文件,最后提交预测结果。目前大多数比赛采取本形式。
Two-stage:分为第一阶段和第二阶段,第二阶段建立在第一阶段的结果上,第一阶段完成才可参加第二阶段。
Kernels:参赛者必须在线提交代码,更加公平,使每个参赛者都使用相同配置的电脑。
参赛时间
全年滚动,随时可以报名。
竞赛含金量
从留学申请者的角度来看:对于申请Data Science相关专业的同学来讲,大数据的走红使得Data Science的申请竞争愈演愈烈,因此如何提升背景也是大家非常关心的问题。而Kaggle正好给大家提供了一个非常好的平台,在这里人人有参与项目的机会,无论你的背景是什么,都可以通过选择合适的项目来找到属于自己的位置,利用自己的专业优势,为整个team作出贡献,丰富简历的同时也能学习一些干货,为自己以后的学习打好基础。而其在领域内的知名度足以让你在众多申请者中脱颖而出,绝对是申请利器!
从求职者的角度来看:Kaggle提供了一个非常好的学习平台,在这里你可以接触到真正的业界案例,收获实际的项目经验,在每一个项目中不断挑战自己,甚至在Kaggle榜上占据一席之位,提高自己在业内的知名度,优秀的排位甚至可能带来的非常好的工作机会。
同时,也可以认识一群志同道合的人,扩展自己的professional network,与业内最顶尖的高手互动,尤其是很多队伍在比赛结束后都会公开自己的解法,如果这个项目恰好你参与过,为之投入过无数个日日夜夜,此时就是不可多得的学习机会。如果能在Kaggle这种高手云集的比赛中获得一个还不错的成绩,写在简历上足以打动你今后的Boss,跳槽就翻倍的高薪工作指日可待!值得一提的是,虽然是汇集精英的社区,Kaggle的论坛氛围很好,对新人非常友好,大家一定要多看Script多请教!