我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

这是一个真实的故事。前几天,我和一群小伙伴在新加坡参加了一场神秘的黑客大会,具体是什么大会,以后再说。我先说说你们感兴趣的“寻找红灯区事件”。

我们本来纯洁地打算寻找吃榴莲的圣地,不料女导游神秘兮兮地介绍,新加坡有个地区叫芽笼,是个开展合法羞羞服务的区域,就在你们吃榴莲的地方附近哦。

蛤?贵坡还有这么不符合我们社会主义核心价值观的地方?

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

车上的小伙伴顿时来了兴致,强烈要求司机载着我们在芽笼区域晃荡一圈。而且,一位男同学提出了一个相当正经的问题:听说提供这些服务的场所就隐藏在大街小巷里,我们怎么区别什么样的场所是红灯区?迷路怎么办?

女导游羞涩地朝着一个方向指过去:你们看,新加坡的这些街巷分成了单双号,在这个区域,单号街道都是正经吃喝的地方,一般红灯区隐藏在双号街道里哦。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

【 图片来源:新加坡眼  所有者:新加坡眼 】

为了再一次教我们辨别什么是提供特殊服务的小店,导游指出,一般在这些场所外面,会挂上两个红灯笼,这些灯笼会在夜晚点亮。

可是,这辆大巴转了许久,我们还是没有看到红灯笼,不禁失望至极,导游安慰我们:对了,有些场所不挂灯笼,但有 bling bling 的霓虹灯,你们如果在这个区域的双号街巷看到闪烁的五颜六色,那就八九不离十了!

我之所以想起寻找红灯区事件,是因为1月16日,我参加了阿里安全部的一次年度媒体沟通会,AI 鉴黄被作为一个典型的安全 AI 应用案例推出。我才发现,相较于肉身寻找红灯区,AI 早就在鉴定黄赌毒上一路狂奔了。

但是,厉害如 AI 唐马儒,竟然也面临着安全风险。

本文作者:雷锋网(公众号:雷锋网)网络安全专栏作者,李勤,微信:qinqin0511

攻击者 VS AI老司机

我们来看看,发生了什么。

阿里目前有三大战略领域:传统电商、数字化娱乐和新零售,这三个领域都涉及到网络安全,比如,原创内容保护、内容治理和网络黑灰产对抗。

以内容治理为例,由于淘宝体量巨大以及内容生态越来越繁荣,淘宝的短视频每天的观看量差不多能达到 20 亿次,这就衍生了一个问题:如何让内容合法合规?

阿里安全部图灵实验室高级算法专家威视(花名)告诉我,在过去一年网信办接到的各种违规信息举报中,超过 70% 的举报涉及色情低俗,这意味着,色情低俗风险确实是各种内容面临的合规风险中占比最大的一种,所以,在巨大的信息中,运用 AI 寻找黄色内容,规避内容风险成了一个强需求。

现在出现了一类不正经的算法工程师,他们被称为“调包侠”,虽然他们可能并不理解 AI 技术底层如何实现,但特别擅长调包——调用别人的开源代码,将一些非法信息灌进去,训练出一个特殊模型。这导致了另一个问题——安全研究员辛辛苦苦训练出的 AI 唐马儒竟然可能叛变,就像被人塞了小红包,对黄色内容睁一眼闭一眼。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

【 图片来源:pconline  所有者:pconline 】

更让人担忧的是,还有更多安全对抗在发生。

第一回合:没用上 AI 技术,违规信息对抗在不同媒体间转移。

以商品信息为例,一开始,色情低俗信息,直接写在商品标题里面,比如:“看爽片XXX”,立马能找到不可描述的东东。

安全技术专家像打地鼠一样,敲掉了标题里的色情低俗。现在一搜“看爽片”“爽片”,出来的分别是这样的商品:

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

【 雷锋网注:仅为搜索结果示例】

攻击者马上把违规信息转移到了商品的主图、副图中。由于色情图片具有较强的视觉可分性,图片的鉴黄比较容易开展,攻击者发现自己被拦住之后,开始做拼接图,把违规信息拼在一个正常背景中,或者通过翻拍逃避检测。

甚至,当他们发现,算法对彩色图片的识别效果好,攻击者就用黑白图片,后来,整张图片容易被识别,就变成局部暴露,比如,衣服裹得严严实实的,只漏出关键的一点点。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

或者,用美图工具把常规照片转换成铅笔画、蜡笔风格,甚至素描,当安全技术专家把这些问题解决了,攻击者又想了一个新办法——在图片里写字,开始时,违规文字是正常的印刷体,被识别后,坏人开始用斜体、花体字;又被识别出来后,攻击者干脆用手写,还故意写得很潦草,不断考验识别算法和人类的想象力。

当图片的鉴黄做得差不多时,违规信息转战到了视频、直播里,用音频来做。当违规音频也被干掉时,攻击者更狡猾了,他们把信息拆解开,在图片、文本、语音中分散放置,变成一个典型的多模态问题,这时需要综合各方信息进行判断。

第二回合:高端对抗,坏人掌握了AI 技术。

这种攻击者不仅是调包侠,还懂得了AI技术底层的一些特点。他能进行什么骚操作?

曾有一篇经典论文指出,本来模型识别一张图片,正常的输出结果是一只大熊猫,但是坏人经过一些简单运算,比如像素级别的操作,得到一张新图片,人眼看上去还是一只大熊猫,但是欺骗了识别模型,被模型判断为一只长臂猿。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

坏人是如何做到的?

第一种情况,攻击者知道鉴黄的算法、模型和网络结构。

威视将这种情况称为“白盒攻击”,这种攻击并不复杂和困难,只要花的时间足够长,耐心尝试密码,攻击者总可以打开盒子。

第二种情况,算法使用的模型是不公开的。

在这种黑盒攻击下,攻击者不断用不同图片调用公开的算法接口,分析返回的结果,不断尝试验证哪些方法可以让AI唐马儒输出的结果含糊不清,直到尝试出来某一种修改能够攻破威视等人建立的模型。

威视说,黑盒攻击比白盒攻击成本高很多,这就是闭源模型好处。事实上,没有什么模型是不可被攻破的,只是攻击成本的高低。安全技术专家要做的,就是不断提高攻击门槛。

除了面对攻击者的威胁,AI 鉴定内容风险时还面临天然阻碍:

一是大海捞针,违规信息可能占比不到千分之一,违规样本和正常样本数量呈现出极度的不均衡的态势。

一是新增风险,安全场景面临的新风险往往“临时爆发”,谁能想到,直播主进行吃播时也可能涉黄。。。emmm,比如吃香蕉、喝酸奶等。

新风险下的新方法

对AI 唐马儒而言,深度学习算法强依赖高质量的样本,样本的质量越高,数量越多,鉴定效果就越好。

威视介绍,为此,他们提出了“小样本学习(few-shot learning)”这样的技术。这个方法主要解决两个问题:第一,训练中出现从来没有见过的新类别,每个类别又只有很少的样本;第二,训练新样本后,不能遗忘以前的知识,不能改变已有的模型。

针对上述问题,很多人想到用finetune(微调)的方式解决,也就是在已有模型基础上,用新类别的样本做微调训练。但是,已有的模型依赖很大的样本量训练,比如,需要1000万个训练样本。这时用几十个、一百个样本训练新类别,基本改变不了网络。而且,这种训练还会遗忘以前的知识。

威视告诉我:“发现这条走不通后,我们考察了很多新方法,比如,度量学习(metric learning),学习类和类之间的度量,把不同的类间的距离尽可能地拉大,缩小同类之间的距离,用模式识别的话,就是增大了类间的方差,减少了类内的方差。”

基于度量学习的思路,他们尝试了很多方法,比如,孪生网络 (Siamese Neural Networks)、匹配网络 (matching networks)、原型网络 (Prototypical Networks)等。

这些方法的核心思想是,把样本看作一个点,再来度量不同样本在空间中的分布,利用算法合适地调整分布,让新的类别在原来的样本空间里找到合适的位置,区别原有的类别。

后来,他们还发现了基于图网络(graph neural network)的方法,这种放在在度量学习的基础上展开,图网络把样本不仅看成一个点,它认为,样本和样本之间是有关系的,用点和点之间的边来表达,有点有边就构成一张图。度量学习只学习了点的信息,图网络既学习了点的信息,也学习了边的信息,这样就构成了网络的学习,实际效果优于度量学习。

还有一种“元学习meta learning”方法,利用以往的知识经验指导新任务的学习。AI算法不是从0开始构建自己的知识体系,而是在已有的知识体系之上,快速学习新技能。

威视等人设计了一种新方法,元学习中融合了度量学习的方法,用构成每个类的标签样本的的原型来表征类,进而通过相似度分类(KNN Classification)进行识别。他们在多个数据集上做了验证,结果表明,该方法比基线有不错的提升。

这种新方法被应用在阿里云内容安全的产品中,阿里安全部提供了一个已有模型及训练方法,第一线的运营人员发现可定义的新风险时,他们用几十个或者上百个样本,在页面上点鼠标,上传并标注样本,这个模型就可以进行一次学习。学习之后,模型对没有学习过样本提出结论,这时运营人员需要标注算法的结果,判断哪个做对了,哪个做错了。大概重复两到三轮,模型基本可用了。

这种方法可以让AI应对大部分新增的风险,而且降低了对样本的依赖性,缩短了响应的时间 。以前,安全人员需要收集信息,打标,训练模型进行测试,周期比较长的。现在,这些事情都交给了第一线的业务人员,他们可以自主进行几轮迭代和部署,模型可能在几个小时内就能上线,防范新增的风险。 

安全 AI 的想象

AI 唐马儒要想比真的唐马儒更厉害,还需要发挥一些想象力。

在阿里安全图灵实验室的实践中,安全人员发现,AI 模型擅长在一些“老司机心知肚明的情况下”处理视觉可分性的任务,比如出现某种明显标志,或者出现了某种动作和场景,但在业务的审核标准里,很多时候连人都需要“脑补”,AI 就面临更艰巨的任务了,比如,在色情低俗的场景下,照片里并没有呈现完整的违规场景,AI表示无能为力,但人却可以想象画面之外发生了什么。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

【 滑雪胜地,图片来源:百家号  所有者:Strange咖 】

即使 AI 唐马儒成了业务相当熟练的老司机,他可能也会忙到吐血,因为新风险实在太多了!

面对不同风险点,难道要每一种都做出来一个模型吗?威视希望,设计多任务网络,模型不仅可以判断色情低俗风险,同时可以判断广告,还可以找人脸,多任务合并到一个网络中。对于计算成本,现在有一种趋势是,业界开始做专门的AI芯片,大幅度提升计算效率,降低成本。

当然,这些仅仅只是一类案例。说了这么多,到底什么是“安全AI”?为什么在大家都提AI、AI安全时,阿里安全要“别出心裁”地来这么一出,并告诉大家,阿里安全要“ALL IN 安全AI”?

阿里安全研究员陆全称:“我们阿里安全有这样一个场景,把 AI 在安全场合进行打磨。其实我们通过 AI 应用在安全去保护AI,通过这样一个不断迭代的过程,把这两个东西形成一个整体。这个整体叫做‘安全AI’,它可以自我进化。”

进化的结果是,他们想培养出一种“人”,“他”是天生就是很好的拳击手,具备高灵活性,非常强壮,还要有高对抗性,最后反哺通用的AI,对整个AI领域提供帮助,促进人工智能的发展。

虽然结尾如此有雄心壮志 ,机智如你,可能想知道一个问题:你们到底有没有找到红灯区?

A.找什么找,吃猫山王才是正经事。

B.晚上一波人在一个地方偶遇,啊呸,你们在想什么?

C.人不如 AI 老司机,唐马儒别哭,起来再战。

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

【 图片来源:haoqilu  所有者:haoqilu 】

致谢:该文得到了阿里安全图灵实验室高级算法专家华棠、觉奥以及阿里安全资深技术专家铁花的帮助。

本文作者:雷锋网网络安全专栏作者,李勤,微信:qinqin0511

雷锋网原创文章,未经授权禁止转载。详情见转载须知

我在新加坡寻找“红灯区”,AI 老司机翻了个白眼

(完)