人类和机器感知比较中常见的三大陷阱，你中了几条？

深度神经网络（DNNs）已经在人工智能领域取得了极大的成功，它们以图像识别、自动化机器翻译、精确医疗和许多其他解决方案为载体，直接影响着我们的生活。

不仅如此，这些现代人工算法和人脑之间有许多相似之处：首先是两者在功能上的相似，（比如说，它们都可以解决非常复杂的任务），以及它们在内在结构上的相似性（比如它们包含许多具有层级结构的神经元）。

既然这两个系统很明显存在众多相似性，于是人们不禁提出许多问题：人类视觉和机器视觉到底有多大的相似性？我们可以通过研究机器视觉来理解人类视觉系统吗？或者从另一个角度来说：我们能从人类视觉的研究中获得一些启发来改进机器视觉的效能吗？所有这些问题都促使我们对这两个奇妙的系统进行比较研究。

虽然比较研究可以增进我们对这两个系统的理解，但实践起来并不那么容易。两个系统之间存在的众多差异可能会使研究工作变得十分复杂，同时也带来许多挑战。因此，谨慎地进行DNNs与人脑之间的比较研究就显得至关重要。

论文地址：https://arxiv.org/pdf/2004.09406.pdf

论文《The Notorious Difficulty of Comparing Human and Machine Perception》（《比较人类和机器感知中最难攻克的困难》）中，作者强调了容易得出错误结论的三个最常见的陷阱:

人们总是过于急切地得出结论：机器学习能够学会和人类类似的行为。这就好像我们仅仅因为动物的脸上可能有与人类类似的表情，就迅速得出结论认为动物也会和人类一样感到快乐或悲伤。
要得出超出测试架构和训练过程的一般性结论可能会很困难。
在比较人和机器时，实验条件应该是完全相同的。

陷阱1：人们总是过于急切地得出结论：机器学习能够学会和人类类似的行为

先来做一个小实验：下面的图像是否包含闭合轮廓？

人类和机器感知比较中常见的三大陷阱，你中了几条？

这张呢？

人类和机器感知比较中常见的三大陷阱，你中了几条？

你可能很容易判断出这两幅图像都有一个闭合的轮廓。根据格式塔理论（Gestalt Theory），对闭合轮廓的知觉被认为是人类视觉系统能够从外界获得物体意义的重要原因。人类会利用全局信息以判断一条线是否是闭合轮廓，因为图像的局部区域不足以提供完整的信息，这个过程通常被称为“轮廓整合”（contour integration）。

我们假设卷积神经网络很难完成全局轮廓整合。就其性质而言，卷积在其大部分层中主要是处理大量的局部信息，而处理全局信息的能力相对要弱一些，这就使得在对象识别中，相对于形状，卷积更擅长处理纹理信息（相关工作可参考，Geirhos等人2018年的工作《ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness》，Brendel 和Bethge 2019年的工作《Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet》）。

我们用下面这组具有闭合和开放轮廓的图像训练模型：

人类和机器感知比较中常见的三大陷阱，你中了几条？

为了测试DNN能否按有无闭合轮廓将图像分类，我们创建了自己的数据集。

令人惊讶的是，经过训练的模型几乎完美地完成了这项任务：它可以很轻易地区分出图像中是否包含闭合轮廓。如下图所示，y轴表示准确度，即正确预测的分数，其值为1意味着模型正确地预测了所有图像，而0.5则是指模型的表现比较随机。

人类和机器感知比较中常见的三大陷阱，你中了几条？

我们训练CNN，以让它按是否包含闭合轮廓进行图像分类。绘制的效果表明，它在和训练数据一样独立分布的测试集上表现良好。

这是否意味着DNNs可以像人类一样毫不费力地完成全局轮廓整合?如果是这样的话，即使不用新图像对模型进行任何训练，它也应该能够很好地处理不同的数据集。

遵循这一逻辑，我们继续用分布外（OOD.）图像测试模型的性能：与原始数据集不同的是，这个样本中大多数图形的轮廓包含更多的边缘，或者从原来的直线变成了曲线。

该测试应该能够揭示我们的模型是真正地学习了闭合的概念，还是只是在原始图像中提取了一些其他的统计线索（比如，封闭图像和开放图像可能包含不同数量的黑白像素等等）。

我们再次欣喜地发现我们的模型对于新图形也处理得很好，也就是说，我们的模型在通用性方面表现良好。

人类和机器感知比较中常见的三大陷阱，你中了几条？

我们的DNN通用性较好，不需要再次训练（用o.o.d.测试）也能很好地处理不同的数据集。与原始数据集不同，图形从原来的直线变成曲线，大多数图形轮廓包含更多的边缘或多个曲线形状。

根据这些数据，我们可以得出结论，DNNs的确可以学习“闭合”这一抽象概念。然而，这还不是最后的结论。我们研究了更多不同的数据集。这一次，我们改变了线条的颜色或粗细。然而对于这些新图形，我们的模型就无法判断图像是否包含闭合轮廓了，其准确率下降到50%左右，相当于随机猜测。

人类和机器感知比较中常见的三大陷阱，你中了几条？

虽然我们的DNN可以泛化到一些不同的数据集，但对于其他变化则会出现问题

在这些新图形上出现的问题，表明DNN所学习的分辨图形的策略并不能处理所有不同的数据集。接下来一个自然的问题就是探究模型究竟学到了什么策略。

正如我们最开始所假设的那样，模型似乎需要全局信息，才能很好地完成我们的任务。为了验证这个假设，我们使用了一个只能访问局部区域的模型。

有趣的是，我们发现，即使提供给这个模型的图块小于闭合轮廓，DNN 仍然表现良好。这一发现表明，要让模型检测出我们所使用的这一组图像刺激中是否含有闭合轮廓，整体信息并不是必须的。下图展示了模型可能使用的局部特性:某些线的长度为正确的分类任务提供了线索。

人类和机器感知比较中常见的三大陷阱，你中了几条？

一个只能访问局部区域的模型（BagNet）显示，图形的整体特性对于模型完成我们的任务来说，并不是必需的。相反，局部区域几乎已经可以为正确的分类任务提供足够的证据。更具体地说，一条短线和一个开放的尾端为模型将图形判断为开放轮廓提供了证据。

作为人类，我们常常执着于弄清一个特定的任务是如何被解决的。在这个案例中，我们认为只有通过轮廓整合才能解决闭合轮廓识别这一问题，然而结果证明这个假设是错的。

相反，更简单的解决方案是从人类的角度基于局部特征进行识别，这是难以预料得到的。

在比较人脑和机器模型时，这一点需要谨记于心——DNNs能够找到与我们期望它们使用的方法完全不同的解决方案。为了避免我们仓促得出有人为偏见的结论，彻底检查整个模型，包括其决策过程和数据集，是非常重要的。

陷阱2：很难得出超出测试架构和训练过程的一般性结论

下图显示了合成视觉推理测试（SVRT）的两个示例（Fleuret等人 2011年的工作《Comparing machines and humans on a visual categorization test》）。

你能解决下面的问题吗？

人类和机器感知比较中常见的三大陷阱，你中了几条？

SVRT数据集的23个问题中，每一个问题都可以相应地分配到两个任务类别的其中之一。第一类称为“相同-不同任务”，需要模型判断形状是否相同。第二类称为“空间任务”，需要根据形状在空间上的排列方式做出判断，例如，根据一个形状是否位于另一个形状的中心做出判断。

人类通常非常擅长解决SVRT问题，只需要几个示例图像就可以学习潜在的规则，然后就能正确地对新图像进行分类。

曾有两个研究小组用SVRT数据集测试了深度神经网络。他们发现这两个任务类别的测试结果存在很大差异：他们的模型在空间任务上表现良好，但在“相同-不同任务”上却表现不佳。Kim等人在2018年提出，可能是人类大脑中像周期性连接这样的反馈机制，对于完成相同-不同任务来说至关重要。

这些结果已经被引证为更广泛的说法——DNNs不能很好地完成“相同-不同任务”。而下面我们将要提到的实验，将证明事实并非如此。

Kim等人使用的DNNs只包括2-6层，但通常用于对象分类任务的DNNs相比之下要大得多。我们想知道标准的DNNs是否也会出现类似的结果。为此，我们使用ResNet-50进行了同样的实验。

有趣的是，我们发现ResNet-50完成的所有任务(包括相同-不同任务)的准确率均达到90%以上，即使与Kim等人使用的100万张图像相比，我们只使用了28000张训练图像。这表明前馈神经网络确实可以在“相同-不同任务”上达到较高的精度。

人类和机器感知比较中常见的三大陷阱，你中了几条？

Kim等人的研究结果表明，只包含2-6层的DNNs可以很容易地解决空间任务，但是对“相同-不同任务”表现不佳。我们找到了一个模型(ResNet-50)，它对两种类型的任务都能达到很高的准确率。这一发现表明，相同-不同任务对前馈模型没有固有的限制。

在第二个实验中，我们只使用了1000个训练样本。在这个场景中，我们发现对于大多数空间任务，模型仍然可以达到较高的准确度，而对于相同-不同任务，准确度会下降。这是否意味着相同-不同任务更加困难？我们认为，低数据模式并不适合用于决定任务的难度。学习速度很大程度上取决于系统的初始条件。与我们的DNNs不同，人类是从终身学习中获益。换言之，如果从零开始训练人类视觉系统完成这两类任务，则人类视觉系统也很可能会在样本效率上表现出与ResNet-50相似的差异。

那么我们从这个案例研究中学到了什么可以用于比较人类视觉和机器视觉呢？

首先，做出任何关于DNNs不能很好地执行某个特定任务的结论，我们都必须要谨慎。训练DNNs是一个复杂的任务，而且它们的性能很大程度上取决于经过测试的体系结构和训练过程的各个方面。其次，明白DNNs和人类有不同的初始条件这一点也很重要。因此，当我们从使用很少的训练数据的环境中得出结论时，尤其需要小心谨慎。

总而言之，在得出超出测试架构和训练过程的一般性结论时，我们必须保持谨慎。

陷进3：在比较人和机器时，实验条件应该是完全相同的。

请看下面左边这张图。很明显你可以看到一副眼镜，现在如果稍微裁剪一下照片，我们仍然可以清晰地看到是一副眼镜。继续裁剪几次，我们仍然能够识别出这是一副眼镜。

然而，从某个时刻开始，情况就发生了变化：我们不能再识别出这是副眼镜了。

从可以识别出物体的裁剪过渡到无法识别出物体的裁剪，其中有趣的一点是它的清晰度的变化：略大的裁剪（我们称之为“最小可识别裁剪”）能够被大多数人正确分类（例如90%），而略小的裁剪(最大不可识别裁剪)只有少数几个人（例如20%）能正确地分类。这个识别度的降低被称为“可识别差”(可参考Ullman 等人 2016年的工作)。它的计算方法是从正确分类“最小可识别裁剪物”的人的比例中减去正确分类“最大不可识别裁剪物”的人的比例。在下面的图中，可识别差为：0.9 - 0.2 = 0.7。

人类和机器感知比较中常见的三大陷阱，你中了几条？

当裁剪或降低图像分辨率时，我们最终会无法识别其中的物体。实验表明，这个过程中可识别度会急剧下降，下降的程度被称为“可识别差”。请注意，此图中的比例和裁剪是为了示意而编制的。

Ullman等人找出了人类仍能辨认出物体图像的最小部分，他们还测试了机器的视觉算法是否具有同样明显的差距。结果发现，在所测试的机器视觉算法中，可识别差要小得多（等于0.14），并得出结论，机器与人类视觉系统的功能有所不同（比较第二个图中左边的两个柱形）。

在我们的工作中，我们在一个与Ullman等人的实验非常相似的实验设计中，重新审视了可识别差，但两者之间有一个关键的区别：我们是在机器选择的图块而不是人类选择的图块上测试机器。具体地说，我们利用最先进的深卷积神经网络实现了一种搜索算法，它模仿了人类实验。这就确保了机器在他们选择的图块上被评估——就像人类在他们选择的图块上被评估一样。

人类和机器感知比较中常见的三大陷阱，你中了几条？

我们用DNN实现了一个模拟人类实验的搜索算法。正确识别的概率绘制在y轴上，对应于x轴上减少的裁剪。与人类实验类似，当不能辨别出物体时，正确识别概率急剧下降。换句话说，我们发现我们的机器算法也有很大的可识别差。

我们发现，在这些条件下，我们的神经网络确实在最小可识别裁剪和最大不可识别裁剪之间具有同样大的可识别差，正如Ullman等人针对人类的实验结果一样。

人类和机器感知比较中常见的三大陷阱，你中了几条？

从左到右的可识别差：Ullman等人2016年用人类选择的图块对人类和机器算法进行测试；我们的DNN在机器选择的图块上进行测试。当用在机器选择的图块上进行测试时，我们的DNN有一个很大的可识别差，这与Ullman等人在2016年用人类选择的图块测试机器算法所得到的结果不同。

这个案例研究说明，适当调整人类和机器的测试条件对于比较两个系统之间的现象是非常重要的。

总结

上述三个案例研究突出了在比较人和机器时面临的几大难点。本文特别强调了这几点：确认偏差会导致对结果的错误解释，从特定的体系结构和训练过程中归纳结论是很困难的，条件不相等的测试过程会导致错误的决策行为。

综上所述，在进行严谨的人机比较时，我们必须保持谨慎，并尽量减少我们习以为常的人类偏见。只有这样，人工智能和人类之间的比较研究才能富有成效。雷锋网雷锋网雷锋网(公众号：雷锋网)

via https://thegradient.pub/challenges-of-comparing-human-and-machine-perception/

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）