KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

雷锋网 AI 开发者按:KDD 2019 至今迈入第三天,在经历了首日 Tutorial Day 、次日 Workshop Day 的知识轰炸以及精彩的 Keynote 演讲后,我们终于迎来了大会的高潮时刻——被誉为数据挖掘领域「奥运会」的 KDD CUP。

今年的特别之处,在于 KDD CUP 2019 拥有了专属的完整、独立议程,不再感觉只是大会的附属。同时,KDD CUP 2019 也破天荒首次设立三个赛道,供世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛。而赛事结果也让人感到惊喜——三个赛道的冠军悉数被华人面孔拿下。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

KDD CUP 有了属于自己的 DAY

AI 开发者从官网获取的最新议程显示,作为 KDD 2019 “Main Conference Day”的重头戏之一,KDD CUP DAY与今年的应用数据科学 Invited Talks和Research Track 论文 Oral 两大议程重叠,举行时长几乎横跨全日。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

揉碎了细看,KDD CUP DAY 如今拥有主席致辞、颁奖仪式、大会演讲、Spotlight、Panel 等一系列完整的闭环议程,从中也反映了 KDD CUP 在整个 KDD 大会中的分量。按此往下发展,KDD CUP 在未来完全拥有进一步自主独立的可能(搞事情!)。


KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

KDD CUP DAY 完整议程

今年的 KDD CUP 一共获得来自 39 个国家 230 所学术/研究机构一共 2800 多支队伍的注册。其中 1200 支的活跃队伍(总数超过 5000 人)提交了约 17000 份解决方案。

与这些“热闹”的数据相对的是,大会现场则要“冷静”很多。也许是宣传力度有所欠缺,再加上部分获胜队伍美签未能成功批下,所以当 AI 开发者记者今早来到大会现场时,人数要比想象中的少一些。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

今年的KDD CUP 赛事共有三位联合主席,他们是 Taposh Dutta-Roy(下图右)、Wenjun Zhou(下图左)以及 Iryna Skrypnyk(下图中),分别供职于 Kaiser Permanente (KP)、田纳西大学和Pfizer 。

KDD CUP 这 20 年

KDD CUP DAY 的一开始是组委会致辞环节。

首先打头阵的是 Iryna Skrypnyk,她深情回顾了 KDD CUP 自 1997 年举办以来的赛题,以及这些赛题是如何与当时的社会风潮紧密结合的。她表示,自己亲身参加了第一届 KDD CUP 竞赛,至今依然感谢 KDD CUP 带给她的指导意义。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

为了让读者更清晰地看到 KDD CUP 的历年赛题变化,AI 开发者特地做了完整梳理:

  • forecasting of air quality indices (2018), 

  • highway tollgates traffic flow prediction (2017), 

  • measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),

  • prediction of course drop-outs for college students (2015),

  • prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),

  • resolving author-name ambiguity in scientific publications (2013),

  • prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),

  • identification of user tastes in music for Yahoo! music recommendation (2011),

  • prediction of student’s performance for improvements in education quality (2010),

  • prediction of customer relationship for personalization in CRM (2009), 

  • early breast cancer detection from medical imaging (2008), 

  • user rating prediction to improve Netflix movie recommendation (2007), 

  • pulmonary embolism detection from medical imaging data (2006), 

  • categorization of search queries from an internet search engine (2005), 

  • plus protein homology prediction in particle physics (2004),

  • prediction of paper citations and building citations graph for arXive (2003), 

  • detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002), 

  • prediction of molecular bioactivity and plus protein locale for drug design (2001), 

  • clickstream analysis for online retailer web-site (2000), 

  • prediction of attack type in network intrusion detection (1999), 

  • identify response to the mailing in direct marketing for profit optimization (1998, 1997)

此外,她也分享了赛事在经过这 20 多年发展后所经历的变化,其中包括:

  • 面临的问题复杂化

  • 关注焦点从机器学习转向特征工程笔记

  • 数据工程开始占据主导地位

  • 鼓励开源代码

  • 涌现新的应用领域

  • 防泄漏成重要议题

  • 更复杂的评分功能

  • 采用更多比赛平台

  • 代码提交问题

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

紧接着发言的 Taposh Dutta-Roy,先用一张 PPT 提出一个很有意思的问题:最早通过竞赛方式组织人群解决问题的赛事是哪个?随后公布的答案显示,是英国经度委员会于 1714 年组织的“测定海上船只经度”赛事。

他想借此说明举办赛事的价值与意义。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

他补充,赛事如今已深刻影响着业内的个体、企业与研究机构。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

首设 3 个赛道

Wenjun Zhou 在接下来的致辞中,代表组委会分享了今年在选择赛题上的考量。分享中她一再强调,如何让赛事在具有挑战性之余,同时在可控范围之内,是本次组委会考虑得最多的事情。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

最终组委会确立了 Regular ML、Auto-ML、Humanity RL 三个赛道,分别由百度、第四范式以及 IBM 承办。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

百度以「智能出行」为主题布置了两大任务,分别为「场景感知的多模态出行推荐」与「开放应用挑战赛」。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

AutoML 的参赛者需要利用时序关系数据,设计一个能够自主(无人为干预)实现监督学习的 AutoML 计算机程序。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

Humanity RL 赛道的参赛者需要为顺序决策制定任务开发出一套高性能工具,从而形成可能影响撒哈拉以南非洲疟疾政策的解决方案。

此外,她也以分享了组委会最终决定设立三个赛道的原因。如下图所示,排在第一位的原因,是提案数的暴增,由此可见 KDD CUP 对于业内企业的吸引力。其中强化学习赛道为 KDD CUP 首创,值得一提的是,上午大会环节专门安排了一场与强化学习相关的主题演讲,可见强化学习在当下的受欢迎程度。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

接下来公布的数据从侧面反映了 KDD CUP 逐年壮大的趋势,其中今年的奖金池整体超过了 10 万美金。

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

奖金池与参赛队伍数量都是历年之最!

尴尬却不失礼貌的颁奖环节

KDD CUP 2019 所有赛道的结果早已在官网公布,今早的颁奖环节,更多的是强调一种仪式感,让参赛者们也能拥有属于自己的舞台。

然而令人尴尬的是,由于很多参赛者因为这个或那个原因未能到场(美签未被批是主要原因),导致相关环节只能匆匆结束。

不过颁奖环节依然有值得一提内容,比如三个赛道的冠军悉数被华人队伍拿下:

  • Regular ML 赛道(任务一):

Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo(蚂蚁金服) 

* Regular ML 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf

  • Auto-ML 赛道:

Zhipeng Luo(深兰科技),Jianqiang Huang(北京大学),Mingjian Chen,Bohang Zheng(深兰科技)

* Auto-ML 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf

  • Humanity RL 赛道:

Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 国立成功大学

* Humanity RL 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf

他们也大多都有代表到场领奖:

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

Auto-ML 赛道的冠军队伍

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

Regular ML 赛道的冠军队伍

而作为百度承办的 Regular ML 赛道颁奖人代表,熊辉教授分享了一个有意思的数据,那就是百度今年提供的赛事奖金池为 KDD CUP 的历年之最,其中任务一的优胜队伍将能获得高达 10 000 美金的奖金!

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

后记

从单独设立 KDD CUP DAY、突破记录的参赛队伍与奖金池来看,KDD CUP 的影响力早已毋庸置疑。然而首创三赛道、首设强化学习赛道,也让我们看到今年的组委会并未固步自封,而是愿意不断挑战自己,在为业界解决系列重要问题之余,也树立起了新的数据科学赛事标杆。

这让人忍不住期待,拥有了自己独立议程后的 KDD CUP,往后又会给我们带来哪些惊喜。

雷锋网 AI 开发者雷锋网(公众号:雷锋网)

雷锋网原创文章,未经授权禁止转载。详情见转载须知

KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」

(完)