在“天眼”看到弑母案嫌疑人之前，我们付出了什么？

前晚，一则新闻引起巨大震动，三年前弑母案中的嫌疑人吴谢宇在重庆江北机场被抓，有人透露吴谢宇进入机场不到十分钟，警察便找到了他。这场所谓的“完美犯罪”是否完美我们不敢妄下论断，但是带领我们抓捕嫌疑人、走进真相的“天眼系统”，或许并不全是完美。

目前中国已经安装了2000万个配备人工智能技术的摄像头，组成了世界上最先进的监控系统——“天眼系统”。我们通过这个系统高精度匹配人脸，锁定肇事逃逸司机、抓到看演唱会的通缉犯、也逮捕了吴谢宇。在这个系统下，人脸识别成为重要的技术基础。不光在公安公共交通放方面，目前人脸识别技术应用场景越来越多，但在我们享受科技带来便利的同时，也有不少风险和担忧的声音。

一、快速发展的人脸识别技术

根据前瞻产业研究院数据显示，到2020年全球人脸识别市场规模将达75.95亿美元。在这场科技快速发展的赛道上，人脸识别真实而深刻的改变着我们的生活，无论是消费支付还是安检寻人，这场“刷脸”的变革正在慢慢渗透生活。

2015年招商银行宣布推出“ATM刷脸取款”业务，三年之后工行已经在215家网点采用了人脸识别技术；
2017年iPhone X Face ID 解锁功能上线，到2017年具备人脸识别功能的全球智能手机共达到了14.62亿台；
2017年首都国际机场打造刷脸登机的智慧机场，这个系统会在1分钟之内完成安全识别和处置，其验放效率较之前提高了66%，每个小时达到266人以上；
2017年支付宝宣布商用刷脸支付，2018年推出刷脸支付产品—— “蜻蜓”，直接将刷脸支付的接入成本降低80%；
2017年北京所有公租房推行“人脸识别”门禁；
2018年张学友四场演唱会借用人脸识别技术抓住五名逃犯；
2018年相关警务识别、智能业务应用越来越广泛；
……

其实对于人脸识别的研究早在 20 世纪 60 年代就开始了。如今经过 50 多年的发展，人脸识别技术已经取得了重大突破，很多经典算法和人脸库相继出现。目前人脸识别系统最高的正确率可以达到 99.5%，人眼在同等条件下识别的正确率仅为 97.52%，目前人脸识别的准确率已经做到了比肉眼更精准。而国内的发展速度也毫不逊色。在2018年的全球人脸识别算法测试（FRVT）中，中国人工智能公司就囊括了前十中的五席。

2018年11月16日发布的报告显示，全球人脸识别算法的最高水平可以做到在千万分之一误报率下，漏报率降低于1%，这意味着千万分位误报下的识别准确率已经超过99%。相比于去年同期，全球人脸识别性能提升了80%。

二、发展背后危机四伏

但是，在快速发展背后，依然存在不少令人担忧的问题。数据来源惹争议首先是训练所使用的数据集。在人脸技术繁荣发展的背后有一个重要基础——大量的数据训练。如果说人工智能是一辆飞奔的豪华跑车，那么数据就是提供强劲动力的“燃料”。为了保证“燃料”的质量，我们对于数据清理的要求越来越高；但是更为重要的是可供训练的数据量。目前研究人员使用较多的数据主要来自“开源数据集”。

除了早期实验团队专业请志愿者拍摄之外，绝大部分的数据主要来自网络获取和公共数据。比如雅虎旗下的图片分享网站——Flicker，通过“知识共享”政策将用户上传的图片等信息整合组成很多开源数据集，早在2014年雅虎就基于Flicker数据发布了1亿的图片与视频，其中包含了9930图片和70万视频的URL以及与之相关的元数据。

还有很多开源数据集大量收集电影、电视剧、运动比赛等公开影像，不少公共监控数据也被用于政府及相关企业进行安防方面的研究与训练。

这个带来了许多争议与担忧。一方面大家对于自己的面部信息被用于训练存在一些芥蒂，另一方面不同企业、政府对此也存在不同的观点与立场。2018年4月，Facebook使用生物统计数据，在未经用户同意的情况下，非法对用户照片进行人脸识别，并存储相关信息。今年4月，亚马逊先前将其面部识别工具 Rekognition 提供给警方使用，引起侵犯民众隐私的争议。当时遭到亚马逊员工、用户、民间组织等超过 15 万人联名抗议。图灵奖得主也呼吁暂停售予执法机构。

而同样面对数据采集和使用方面，微软基于人权考虑，拒绝向警方提供面部识别技术。

信息泄露存风险 2019年2月，海外博主Victor Gevers在个人社交网站Twitter上曝出国内名为“SenseNet”的人工智能安防公司发生大规模数据库泄露——超过250万条的个人数据可被获取，680万条记录泄露。

这次的信息泄露引起了较大震动，这家公司主要从事借用深度学习用于面部识别技术和人群分析，并对外开放数据接口方便使用匹配，其纪录地点还包括警察局、酒店、旅游景点、公园、网吧等等。也就是说当你走在路上，很有可能脸部信息已经被提取、被分析，甚至被泄露。而信息泄漏的风险背后还透出我们对于人脸与其他数据标签关联的担忧。我们目前刷脸支付的普及力度相对较低，人脸所关联上的数据标签还很少。但是未来随着人脸识别技术应用越来越广泛，这种关联度势必会提高。这种关联度的提高会给商业带来无限契机。比方说分析人脸信息和其他社交平台信息，将我们的人脸和相关的兴趣标签打包卖给商场。或许你下一次走进商场，实现全智能逛街，各种精准推送就是基于此。

目前，已经有不少公司有意无意间在做提高这种关联度的事情。Blippar App是一款基于AR技术的探索发现类应用，我们通过此APP扫描感兴趣的对象，不仅可以看到相关商品信息、了解城市街道介绍、甚至还可以直接相关获取社交信息。

黑产伺机而动单纯的信息泄漏，缺乏关联度带来的危害似乎并没有那么直击要害。但是如果这些信息同样被黑产所用，那么损失将无法估量。这本质上来说依旧是对抗间的矛盾。

当下像微软这样的科技巨头成为面部识别发展的领军者，很大程度上取决于他们可以访问大型面部数据库，而组成数据库的正是每天行走在路上、上传自拍等信息的你我。技术的发展要求我们“贡献”出海量的数据供其学习，但是这些数据是否有可能同样被黑产拿来训练呢？

这正在发生。今年的央视315就指出当下人脸识别的风险。而2016年底湖北公安也曾捣毁一专门贩卖公民身份证、动态认证视频（抬头、低头、眨眨眼睛、读一段文字）的团伙在他们查获的1800G信息中，不仅包括身份证正反面、还有手持自拍、侧拍、拿报纸拍，更为神奇还有抬头、点头、左转、右转、读文字的录像。而这些都在帮助黑产形成3D建模，训练如何躲过活体检测。

三、我们在担心什么

其实在面对人脸识别技术的发展，我们的情绪是复杂的。就像此次重庆江北机场通过“天眼”抓捕嫌疑人吴谢宇，准确快速的保证安全，民众成为最大受益者。但是另一方面，看到人脸数据采集的不合理、信息泄漏的风险甚至被冒用身份的可能性，我们有些害怕了。我们到底在害怕什么？

首先，我们害怕毫无察觉的丧失底牌。因为人脸是唯一不需要用户主动配合就可以采集到的生物特征信息。对比其他生物特征的采集过程，如指纹、掌纹、虹膜、静脉、视网膜，都需要以用户的主动配合为前提，即如用户拒绝采集，无法获得高质量的特征信息。与此同时，人脸天生就暴露在外，难以做到自我掩护和伪装，这张脸，成为了识别身份的天然特征。

也就是说，面对四周不休不眠的“索伦之眼”，采集的时候我们毫无察觉、分析的时候我们全然不知，直到泄露的时候、直到曝光的时候，我们毫无还手之力。

其次，我们害怕无法挽回。

人脸识别技术为了防止黑产攻击，会加大对识别精度的训练；黑产为了牟利，会投入更多精力伪装活体面部；那，普通用户呢？我们只有一张脸，曝光了、泄露了、被冒用了，我们可以换一张“脸”吗？

不能。

还有面对信息关联的问题，即便目前看来提取社交照片用于训练的信息十分独立，但是当真正落地到应用场景中，无论我们是“刷脸支付”还是做推荐系统，都势必会产生、关联更多个人信息。一旦唯一的特征信息泄漏，背后风险我们难以估量。

所以，这件事情最可怕的点在于我们无法控制“人脸”何时交出去，更无法预判风险、甚至我们承担不起后果。

当然，我们同样是矛盾的。

目前对于人脸识别数据的采集使用国际间也存在争议，很多人对于自己的照片未经允许被拿去训练这件事情不寒而栗；但也有人认为如果不“投喂”数据，人脸识别技术便没有生长土壤，我们应当多一些包容，给技术发展多一些时间。

争议之下，我们并没有停步于此，相关的采集政策也同样在逐渐完善。2015年以来，国家密集出台了《安全防范视频监控人脸识别系统技术要求》、《信息安全技术网络人脸识别认证系统安全技术要求》等法律法规，为人脸识别在金融、安防、医疗等领域的普及打下了坚实的基础，扫清了政策障碍。

国外也同样如此，比如旧金山推出《停止秘密监视》条例，成为世界上第一个禁止人脸识别的城市。

旧金山提出《停止秘密监视》条例作为企业也在尽可能保证隐私权，微软已经成立了一个名为“Aether委员会”的内部咨询小组研究人工智能的应用，并发布了一套开发人工智能技术的伦理原则。无论如何，当下的我们并不是束手无策、更不能够因噎废食，提出担忧与疑虑是改进的第一步。至于如何在科技发展与隐私伦理间找到平衡、如何构建完善的采集机制，将是未来很长一段时间我们需要思考和努力的。

（完）