不到 3 天截稿!NeurIPS 2020 新要求提交的“影响陈述”还不会写怎么办?

不到 3 天截稿!NeurIPS 2020 新要求提交的“影响陈述”还不会写怎么办?

今年 2 月份,NeurIPS 组委会发布了NeurIPS 2020 在提交和评审机制上做出的一些重大更改,其中一项便是要求作者在投稿论文中单独拟一个“影响陈述”章节来探讨他们这项工作将带来的更广泛的影响,包括可能带来的正面或负面的社会影响。

现在离截稿仅剩不到 3 天,还不知道怎么写“影响陈述”的同学该怎么办?

本文中,分别聚焦于人工智能治理、人工智能伦理以及机器学习的几位研究人员,就从 NeurIPS 投稿作者的角度,针对如何分析机器学习研究的影响这一问题,提出了相关建议,并给大家呈上了一份“不那么正式”的撰写指南。还在为“影响陈述”发愁的同学们,不妨重点参考下几位研究人员的建议哦~

一、评估机器学习研究的影响的七大建议

随着机器学习成果应用达到各个领域,其在对社会产生积极影响的同时,也存在着消极影响的隐患。这项举措,对于评估ML 研究的社会影响而言,至关重要,也是作者本身思考并向其他科学家解释研究的动机和背景的一个机会。

随着时间的推移,评估机器学习研究的影响,将能够增强机器学习研究社区在科技治理方面的专业能力,并有助于建立起研究人员与决策者之间的纽带。不过,这件事情想要做好,还是困难重重、充满挑战性的。

那应该如何对机器学习研究的影响进行评估呢,不妨从以下几个方面着手考虑:

1、强调研究带来的益处和风险。

NeurIPS要求“作者应注意讨论积极和消极的结果”。系统地这样评估研究的两面性,将有助于研究者克服各种偏见,避免个人和机构偏向过度积极或过度消极的评估。毕竟,很少有科学进步是完全积极或者完全消极的,更重要的是,要探讨科学进步积极或消极的原因,并且将时态发展引向更积极的方向。

2、强调不确定性。

众所周知,预测研究尤其是基础研究的影响,非常困难。我们建议你在陈述中承认你对研究影响的不确定性,与此同时还要体现这种不确定性并不会阻碍你思考其影响。这会让其他研究者了解到,能够基于哪些地方做进一步研究,以及如何理解你陈述中的不确定性。

3、聚焦于易于处理、被忽视以及特别重要的影响。

科学研究往往会带来一系列令人困惑的潜在影响,更多的是因为研究是偏基础性的,或者考虑的影响是长期的。把所有的影响都考虑在内是不现实的。你可能会特意将评估范围限制在那些特别易于分析的影响上,例如最明显的直接影响。但实际上,你可以把重点放在与你的专业知识特别相关的、具有比较优势的影响上。你可以关注那些容易被忽视的影响。

对于研究人员来说,覆盖例如视觉系统等可能存在的所有潜在影响,比像其他所有人一样在同一个细节层次上讨论最显而易见的问题(例如众所周知的滥用监视系统的风险),会更有成效。你可以关注那些特别重要的影响,比如那些可能破坏或加强民主制度中的公共审议的应用,即便这些影响的推测成分比较大。

4、结合论文简介。

从论文简介开始,你可能就谈到了研究工作的相关影响。但影响陈述不仅仅是发表一份科学出版物的“附加部分”,而是一个思考如何推进你的进一步研究工作的机会,并为你额外提供了进行这项思考的空间。

5、讨论,阅读,反思。

如果时间允许,吸收他们更广泛的思考将有益于影响评估。方法有:与同事以及其他有思想的人讨论你的研究可能产生的影响;关注相关技术的公开讨论;阅读人工智能和技术相关影响的案例研究;阅读关于技术治理的相关学术文献;大胆地问你自己:如果研究项目成功了会怎么样呢?

6、即使是理论工作,也要考虑其影响。

NeurIPS 组织者表示,非常理论性或通用性研究的作者可以写下“不适合讨论更广泛的影响”。然而实际上,理论性工作确实会产生下游影响,因为这毕竟是许多理论性工作的动机,所以我们鼓励研究人员尝试更广泛地思考其研究对相关子领域的影响。

7、建立影响评估的支撑结构。将评估影响融入到你的思考习惯中。

如果你能创建一个研究小组或机构,不妨正式建立影响评估的支撑结构来实现这一点:在小组对话中分配时间,认可并奖励典范的相关贡献,或者也可以建立一个由研究员领导的机构审查流程。具体到NeurIPS 2020,虽然要求在6月3日提交的完整论文中包含影响陈述部分,但作者也可以利用截止日期更晚些的补充材料来详细陈述影响评估。

 二、“影响陈述”撰写指南

在影响评估过程中,你可以先问自己三个问题:

Q1:应用——你的研究人会对ML 应用产生怎样的影响?

Q2:影响——这些应用会产生怎样的社会影响?

Q3:举措——怎样的研究或举措能够提高社会产出?我们先使用影响堆栈架构来分析前两个问题:      不到 3 天截稿!NeurIPS 2020 新要求提交的“影响陈述”还不会写怎么办?

最下面一层是基础性研究,它能够为ML 技术的研究注入新的活力。Q1 要问的是,这些研究如何影响 ML 应用;Q2 要问的是,这些应用会由企业或政府等群体带来哪些现实实践,会产生哪些社会影响;而 Q3 问的则是如何降低研究的应用风险以及实现收益最大化,例如通过应对规范、政策、研究机构以及选择最佳实践来是实现这一点。

下面将系统地探讨这些问题。

首先,将你的研究贡献匹配到影响堆栈架构上,并确定它对于其他各层的主要影响。例如,基准或软件工具的引入可能加速特定技术(第1层)或应用(第2层)的进展;大脑的神经科学模型可能为模型优化(第0层)或神经网络架构(第1层)提供思路。

接下来,针对上述三个问题一一展开讨论。

Q1:应用——你的研究会对ML 应用产生怎样的影响?

想一下你的研究如何通过堆栈架构影响到ML 应用,即特定任务的工具或解决方案。这些应用可以是广义的,如图像分类,也可以是狭义的,例如唇读。具体可以从以下几个方面考量:

  • 你的研究对已有应用会带来什么影响,以及如何产生影响。例如,你在transformer上的研究成功可能改善各类NLP 应用。

  • 你的研究可能会推动哪些新应用的诞生,并解释清楚如何做到?可能受你研究影响的应用,都有什么属性?这是考虑到应用了你的研究思路的ML 应用,可能会跟其他应用有所不同。增加可解释性、样本效率和准确性,都会对下游应用产生不同的影响。

  • 研究过程中相关的道德考量,比如说使用的数据是否存在隐私或公平性问题。

关于这一问题,可以考虑的因素包括:可解释性和透明度,性能指标,公平性,数据、存储以及计算要求,鲁棒性和可泛化性,对抗鲁棒性(例如数据中毒等),误差、事故以及失效模式、偏见,反馈回路,对个人隐私的影响等等。

Q2:影响——这些应用会产生怎样的社会影响?

基于对Q1的答案 ,你要考虑这些应用走出实验室后,会带来哪些社会作用。例如,在诉讼中,一个唇读工具可以用来转录闭路电视录像作为证据。需要考虑的点有:

  • 对于不同实体(企业、政府以及个人)而言可能存在的用途,尤其要考虑到新颖的用处以及恶意的、善意这样的用途。

  • 这些用途造成的社会影响范围,包括对终端用户、企业以及政府等各个群体的预期和非预期、短期和长期影响。在考虑潜在风险时,可以考虑事故、恶意使用和结构性风险。

  • 确定用途的主要属性带来的影响。特别是,需要确定由于失误或局限性(例如隐私、公平、透明)所带来的影响。 

Q3:举措——怎样的研究或举措能够提高社会产出?

可以做些什么来增加研究带来的正面影响和减少负面影响?不妨从以下几个方面着手:

  • 对ML研究的建议,例如如何让研究转变成有益应用、提高对风险的理解或控制技术(比如诊断工具或让算法更加鲁棒的策略)等方面的思路。

  • ML 领域以外的研究建议,如心理学、经济学、政治学、哲学等。你提到的想法可能会揭示新的技术可能性,对此就需要更多的社会研究来理解其含义,并设计非技术性的控制机制。

  • 其他举措,包括对其他类型的行为体,如公司、决策者、教育者、监管机构和媒体如何应对研究带来的可能性的建议。

三、案例分析

为了让大家更具体地了解“影响陈述”该怎么写,下面来看三个案例。

1、GNN Explainer —为图神经网络生成解释

这篇论文中,作者介绍了一种为基于图神经网络的模型的预测提供解释的与模型无关的方法:GNN Explainer。

影响陈述:

GNN 可广泛应用于很多领域,包括计算机视觉、自然语言处理、推荐系统、流量预测、生成模型等。我们的研究可用来为这些应用中使用的 GNN 提供解释,提高对单个决策以及底层模型的理解。

一般而言,使用GNN 确实会带来一些比较重要的影响,但在这里,我们着重讨论使用GNN Explainer 为此类系统提供解释会产生的影响。

使用这种工具有许多好处,例如提高决策关键型应用的透明度、降低公平性、隐私和安全风险。不过,增加可解释性反过来也存在潜在风险,而这一点通常较少受到关注。这些潜在风险包括:1)自动化偏差的风险,即对模型过度信任;2)如果使用解释意味着系统现在可能被ML专业水平较低的人使用,而这可能会增加模型或其输出被错误使用的风险;3)如果只在发展阶段使用解释,之后又对模型进行再训练,改变其行为,就可能给人带来错误的“安全感”。

现在,有不少将 GNNExplainer 应用于积极目的的研究,例如研究 GNNExplainer 是否能够提高算法公平。为了降低使用其生成的解释的风险,我们建议研究人员了解在特定真实场景中使用GNNExplainer带来的影响,比方说,在这些场景中,使用者是否了解其给出的解释并做出相应行为而不至于沦为自动化偏见的牺牲品?随着时间的推移,使用这些系统是否能增加或减少人类的领域专业知识。

2、SuperGLUE —NLP 基准

在这篇论文中,研究者介绍了一个面向  通用语言理解系统的基准——SuperGLUE。

影响陈述:

我们提出的新基准,将有助于加速NLP 应用的发展进程,与此同时还能像GLUE一样,推动通用语言系统的开发。这些语言系统可以完成一系列任务,包括从问答、情感分析到诗歌乃至角色扮演游戏等等。

在此基准的支持和推动下,NLP 系统将有助于实现技术的广泛应用,包括客户服务、服务台、零售和销售、医疗服务、金融和法律服务以及营销。

这些应用都有可能产生广泛的社会影响:服务台使用对话系统代替人工,可以节省成本并消除重复性劳动,不过另一方面也可能导致人类失业;搭载于智能家庭设备中的个人语音助理,可以增加老年人行为上的自主性,但也可能会带来一些关于加强性别模式、收集个人数据以及黑客攻占私人信息风险的问题。特别需要注意的是,NLP 模型很可能被一些人恶意利用,来传播错误信息或营造不信任、不确定的信息环境(GPT-2发布之初也引发了相关问题的讨论)。

 另外也有一些与基准本身相关的重要考量因素。任何被广泛使用的基准,都有可能在某个方面“扭曲”研究本身。例如,我们的这一基准可能会偏向于在英文语言上表现较好的方法的研究,此外在有偏数据上训练出来的模型,可能会延续这些数据固有的偏见,比如说性别偏见。为了降低这一风险,我们的基准内嵌了Winogender这一分析工具,来说明模型是否体现出了性别偏见。

我们将开展进一步的研究工作,来理解 SuperGLUE 中使用的数据集的偏见和局限性。我们也提倡其他基准也应采取相关举措,包括使用检测性别偏见和其他局限性的分析工具。与此同时,我们也鼓励研究人员开发用于有益任务的NLP 系统,例如基于文本的咨询系统。

我们认为,社区也有必要开展理解和减轻NLP 应用中风险的研究。比如针对机器生成错误信息的问题,此前一个解决方法是开发检测系统来检测错误,然而,随着NLP 技术的改进,这些检测系统的有效性会逐渐降低。因而,我们建议研究人员和政策制定者寻找方法,来利用平台来检测和阻止恶意内容的传播,而不是机器生成的内容。

3、Pluribus — 在多人扑克比赛中战胜人类的AI

在这篇论文中,作者介绍了一个在6人德州扑克比赛中打败了顶级职业人类玩家的系统——Pluribus。

影响陈述:

对于扑克游戏系统的影响,我们认为应该主要聚焦于开发隐藏信息设置中的策略能力带来的长期影响。这样的能力能够应用于广泛的场景,例如拍卖、匹配、日程安排、定价以及网络安全等。

随着隐藏信息策略游戏中参与者在技能方面的不断优化,可能会对福利产生复合效应,这取决于这些能力的分布方式和策略设置的特征。例如在扑克游戏中,当设置接近零和时,技能的任何变化只可能会将价值转移到那些技能提高得更多的一方身上。如果富人能够获得更多的技能,就有可能促进财富的集中。如果设置为帕累托改进(Pareto Improvement) ,在贸易谈判等场景中,可能会增加总福利。也就是说,最终这项技术能给社会带来有害或者有益的影响,取决于动机不良或动机纯良的公民谁能够利用好这项技术进步。

我们建议社会科学和机器学习领域的研究人员尝试研究如下问题:

  • 从这项研究和相关研究中获得的思路,可以应用到其他哪些应用中?

  • 如果这一系列研究确实提高了特定领域的策略能力,那么这些能力将如何分布?

  • 如果这些能力分布不均,总体福利效果如何?如果这些能力均匀分布呢?

其他参考资料:

1、关于 AI 伦理和治理的相关资料,可参考


2、关于撰写 NeurIPS“影响陈述”的相关资料:

3、计算领域的影响陈述相关资料:

4、实现负责任研究的一些工具资源:

via https://medium.com/@operations_18894/a-guide-to-writing-the-neurips-impact-statement-4293b723f832

雷锋网原创文章,未经授权禁止转载。详情见转载须知

不到 3 天截稿!NeurIPS 2020 新要求提交的“影响陈述”还不会写怎么办?

(完)