Kaggle 竞赛
Kaggle: Your Machine Learning and Data Science Community
Kaggle 成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得 5K-10K 美金的奖金。
除此之外,Kaggle 官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。从某种角度来讲,大家可以把它理解为一个众包平台,类似国内的猪八戒。但是不同于传统的低层次劳动力需求,Kaggle 一直致力于解决业界难题,因此也创造了一种全新的劳动力市场 —— 不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。
Kaggle 上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research” 等等。但他们整体的项目模式是一样的,就是通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。
Kaggle 主要是 Data Mining(DM)比赛(除少数是和 Discrete Optimization 还有 Computer Vision 有关),最重要的是和 Machine Learning(ML)关系不大。ML 通常从模型或者算法出发,关注的是模型或者算法本身存在的不合理的地方,然后提出新的假设,从而去优化模型或算法。在这个过程中并不针对某一个具体的特殊的问题。而 DM 恰恰相反,它是从数据本身问题本身出发,希望针对问题的特性来设计最适合的方案。
同时,每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且还会实时更新选手排位。在截止日期之前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善,因此排名也会不断变动,不到最后一刻谁都不知道花落谁家。
由于这类问题并没有标准答案,只有无限逼近最优解,所以这样的模式可以激励参与者提出更好的方案,甚至推动整个行业的发展。
Kaggle 竞赛另一个有趣的地方在于每个人都有自己的 Profile,上面会显示所有自己参与过的项目、活跃度、实时排位、历史最佳排位等,不仅看上去非常有成就感,更能在求职和申请的时候起到 Certificate 的作用。