雷锋网(公众号:雷锋网) AI 研习社按:本文由 Anthony Goldbloom 发布于 Kaggle 官方 blog,本文先是总结了 Kaggle 在 2017 年里取得的巨大成就,然后对 2018 的新工作做了展望。雷锋网 AI 研习社对本文进行了编译。Kaggler 们想知道将会发生哪些变化吗?那就赶紧过来看看吧!
2017 年是 Kaggle 取得巨大发展的一年。这一年,除了加入 Google,我们还从一个主要关注机器学习竞赛的社区,扩展成一个更广泛的数据科学和机器学习平台。今年,我们的公开数据集的下载量和 Kaggle Kernels 上的用户数都增长了 3 倍,这意味着我们现在拥有了一个蓬勃发展的数据存储库,并构建了一个良好的代码共享环境。
为了让社区成员们对 Kaggle 的这些变化有更好的了解,我们决定分享我们主要的活动指标(Activity metrics)以及与这些指标有关的一些分析。不仅如此,我们还将分享一些 2018 年的规划。
回顾 2017
活跃用户从 2016 年的 47.1 万增长到了今年的 89.5 万(见图1)。因此在 2017 年,活跃用户取得了高达 90% 的增长,而在 2016 年这一增长率为 71%。
虽然我们当前仍然以机器学习竞赛而闻名,但我们的公开数据集平台和 Kaggle Kernels 将在 2018 年初成为 Kaggle 更大的推动力。
图1. 活跃用户增长情况
竞赛
我们在 2017 年发起了 41 项机器学习竞赛,高于去年的 33 项。
其中还有 3 项竞赛的奖金超过 100 万美元:
在「从身体的扫描图中识别出是否携带危险物品」竞赛中,TSA 赞助 150 万美元
在「预测房价」竞赛中,Zillow 赞助 120 万美元
在「通过 CT 扫描图诊断出是否患有肺癌」竞赛中,NIH 与 Booz Allen 赞助 100 万美元
我们同时也增加了对学术界的投入,比如帮助 NIPS 和 CVPR 研讨会举办了一些重要的研究竞赛。其中的亮点包括一系列对抗学习(Adversarial learning)挑战赛和 YouTube 8M 挑战赛。此外,Kaggle 现在也正式托管了 ImageNet。
Kaggle inClass 则允许教授免费举办面向学生的比赛,它已经成为一个完全自助服务的平台并且取得了很好的发展。2017 年,共有 1217 个机器学习和统计班级在 Kaggle inClass 上举办了竞赛,相比起 2016 年的 661 个有所提高(增长率 84%)。
在社区方面,37.5 万名用户下载了竞赛数据集,同比去年增长 62%。而且,有 12.2 万名用户参加了我们的机器学习竞赛,同比去年增长了 54%。
公开数据集平台
我们的公开数据集平台允许我们的社区成员在公共数据集上进行共享和协作。2017 年有 7044 个数据集被上传到平台上,而 2016 则有 495 个数据集被上传。2017年所上传的最受欢迎的数据集有:
2017 年,我们公开数据集平台上的数据集下载量增长了 3 倍以上,达到了 33.9 万次,而 2016 年则为 10.7 万次。这种增长意味着公开数据集平台正在推动数据的下载量。我们在 2016 年发布公开数据集平台,而竞赛平台则是 2010 发布的。
图2. 公共数据集平台的下载量 vs. 竞赛平台下载量
Kaggle Kernels
Kaggle Kernels 目前用于在竞赛和公开数据集平台上共享代码和模型。在 2017 年,Kaggle 之心的用户数量达到了 11.3 万,相比起 2016 年的 3.9 万增长了将近 3 倍。Kernel 创作(Kernel authoring)正迅速变得和参加竞赛一样受欢迎(见图3)。
图3. 核心作者 vs 竞赛报名者
今年最受欢迎的几个开源 Kernel 是:
针对 2017 年数据科学杯赛(Data Science Bowl)——从 CT 扫描图中检测肺癌而编写的图像预处理教程
使用 Python 实现模型的堆叠和嵌入教程
其它亮点
我们发起了有史以来规模最大的数据科学家和机器学习者的调查研究。共有 16716 名受访者,最终产生 235 个探索数据集的公开 kernel。大家可以在 FT 和 Verge上看到该项调查的最全面报告。
总的来说,今年我们在新闻界产生了很多话题,包括 Kaggle 被收购(Techcrunch)的报道,对几个社区精英成员(Wired 和 Mashable)的报道,NIPS 对抗学习挑战赛(MIT Tech Review),TSA 竞赛(NYTimes)和 Zillow 竞赛(NYTimes)。
值得强调的是,社区的活跃有助于加强我们的活动。我们已知的线下 Kaggle 聚会小组就有 50 多个,这些小组都由 Kaggle 社区成员自发组织形成,从普林斯顿到巴黎。大家会在聚会上讨论我们的比赛和数据集。今年,一些 Kaggle 精英成员还在 Coursera 上发起了“如何赢得 Kaggle 竞赛”的课程。还有一群社区成员设立了一个“Kaggle slack”频道来讨论 Kaggle 比赛和数据集,它目前已经拥有超过 3300 名成员。
展望 2018
Kaggle 从机器学习竞赛开始,到现今已经扩展出了一个公开数据集平台和 Kaggle Kernels。而我们的终极理想是将 Kaggle 打造成一个适合于科学研究的场所——所有 Kagglers 都可以进行数据科学和机器学习的相关研究。2018 年,我们将专注于改进所有的核心产品(竞赛、公开数据集平台和 Kaggle Kernels),并为我们的平台添加新的教育资源。
竞赛平台
目前竞赛平台处于一个很好的发展状态。但是我们不能自满,要不断创新。在 2018 年,我们计划开始支持新的竞赛类型,以确保 Kaggle 竞赛能支持机器学习和 AI 的前沿问题。要做到这一点,我们需要致力于实现代码竞赛支持(Code-only competitions,指的是 Kagglers 在比赛中需要上传代码而不仅仅是结果的数据文件)。这将使得我们能够举办全新类型的竞赛,包括像强化学习竞赛和计算资源受限的竞赛。
公开数据集平台
在 2018 年,我们希望公开数据集平台能取得和我们的机器学习竞赛一样的名气。为此,我们需要继续增加 Kaggle 上高质量数据集的数量。我们打算使用一系列强大的新功能来做到这一点。我们正在计划整合和添加新服务,使得我们的社区能够通过与 BigQuery 这样的数据仓库进行集成以处理更大的数据集。并建立允许 Kagglers 在实时数据集中流式传输的功能,而不仅仅是上传静态数据集。
Kaggle Kernels
Kaggle Kernels 目前最大的用处在于模型共享、竞赛和公共数据集平台的数据集分析。在 2018 年,我们想让 Kaggle Kernels 成为一个强大的独立产品,这包括使得 Kagglers 能够在私有的数据集上使用,支持访问 GPU 集群和更加复杂的管道操作。
Kaggle 教育
许多用户来 Kaggle 开启他们的数据科学事业,并提高他们的学习兴趣。为了更好地支持这一块,我们在 https://www.kaggle.com/learn 上推出了机器学习实践课程平台。我们希望它能成为用户们开始创建高度精确的机器学习模型,并掌握他们所需技能的最便捷途径,以助力他们开启自己的第一份数据科学工作。
Via blog.kaggle.com,雷锋网 AI 研习社编译。
雷锋网版权文章,未经授权禁止转载。详情见转载须知。