视觉智能「产学融合」新十年

视觉智能「产学融合」新十年｜CCF-GAIR 2020

2020 年 8 月 7 日，全球人工智能和机器人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。

作为粤港澳大湾区最具影响力和前瞻性的前沿科技活动，CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。

在大会第二日的「视觉智能·城市物联」专场中，组委会特地邀请了这个行业里极少数，能够利用前沿技术，真正为产品和业务创造巨大价值的顶级专家。与他们一同站在高处，重新理解视觉智能与城市级商业场景的本质。

今年出席的嘉宾，分别有华为云人工智能领域首席科学家田奇、京东集团技术副总裁梅涛、微软亚洲研究院首席研究员王井东、商汤科技联合创始人林达华、云天励飞首席科学家王孝宇、澎思科技首席科学家申省梅、暗物智能CEO林倞。

主持人也不禁感慨到：连续四年主持此专场，作为局外人，自己亲历了计算机视觉最为激荡的年代，也在CCF-GAIR的舞台上亲眼见证了商汤、旷视、云从、云天励飞、澎思等企业，从一个个初创公司，生长为现在的头部独角兽，实现了10多倍的增长。

这正是这个时代，给予前沿技术创新企业的最好馈赠。

华为云人工智能领域首席科学家田奇：华为视觉研究计划与进展

视觉智能「产学融合」新十年｜CCF-GAIR 2020

田奇介绍了华为在人工智能领域的十大愿景和计算机视觉领域的基础研究，从中梳理出深耕基础研究、打造全栈方案、投资开放生态和人才培养、解决方案增强、内部效率提升五大方向。以此打造无所不及的AI，构建万物互联的智能世界。

华为计算机视觉以数据高效和能耗高效为核心，聚焦从2D视觉到3D视觉的技术和应用，其中基础研究主要包含底层视觉、语义理解、三维视觉、数据生成、视觉多模态等等方面。在此方向上，华为将基础研究聚焦到数据、模型和知识三大挑战：

1、数据上，如何从海量的数据中挖掘有用的信息。田奇从深层数据模型训练和不同模态数据对齐这两个应用场景为例，介绍了华为如何使用知识蒸馏与自动数据扩增结合的方法让AI模型高效地挖掘数据中的有用信息。

2、模型上，怎样设计高效的视觉模型。田奇认为在深度学习年代，视觉模型主要包含神经网络模型设计和神经网络模型加速两个场景。具体地，田奇介绍了华为如何通过局部连接思路解决网络冗余问题、如何加入边正则化思想来解决局部连接带来的不稳定性等等。

3、知识上，如何定义视觉预训练模型、如何通过虚拟环境学习知识、如何表达并存储知识。为了实现华为打造通用视觉模型的目标，田奇认为推理预测是从视觉感知到认知的关键步骤。虽然预训练方法目前在视觉领域的应用还不成熟，但是近期自监督学习的成果为视觉通用模型的发展注入了新活力，这也将成为常识学习的必经之路。

基于三大挑战，田奇提出华为视觉六大研究计划：数据冰山计划、数据魔方计划、模型摸高计划、模型瘦身计划、万物预视计划、虚实合一计划，来帮助每一位AI开发者。

京东AI研究院副院长梅涛：智能供应链中的机器视觉

视觉智能「产学融合」新十年｜CCF-GAIR 2020

梅涛认为供应链发展经历了三个阶段：

第一阶段，上世纪90年代，传统供应链的信息技术将产业的上下游进行协同；第二阶段，21世纪初期，互联网工业阶段，利用互联网技术提高供应链的效率和敏捷性；第三阶段，21世纪及未来，智能供应链阶段，生产上更加协同，流通上更加敏捷，甚至可以通过用户需求驱动生产，又反过来创造需求。

梅涛指出，中国供应链水平仍处于第一阶段向第二阶段过渡时期。作为“以供应链为基础的技术与服务企业”，京东在不断夯实第一阶段到第二阶段转型的同时，积极布局第三阶段，基于人工智能，利用大数据、物联网、区块链等，打造基于各种技术与服务的供应链全链条。

京东在智能供应链领域的计算机视觉应用非常多。智能消费领域，通过SKU级别商品图片理解，打造智能结算台、京东拍照购、京东搭配购等应用。在实际场景中，通过硬件和软件一体化，帮助线下门店进行一体化营销。

智能流通领域，京东还推出了首个产业级通用目标重识别开源库FastReID。

智能生产领域，应用于工业视觉质检，比如，印刷品包装检测中，通过内容识别、设计校对、字号识别，以检测包装是否符合严格的标准，另外还有基于CMYK色彩控健康识别，缺陷监测和尺寸识别。

梅涛提到，智能供应链需要全链条的生态，京东拥有全行业最长的数据链条以及最全的供应链服务。京东不仅要服务于自己内部的客户，还基于人工智能开放平台，开放技术，共建生态。

最后，梅涛分享了他对下一代视觉技术趋势的看法，他认为计算机视觉经历过萌芽、爆炸、巅峰，现在回归理性，未来将在数据、模型、学习机制和工具箱四个层面有长足进步。

云天励飞首席科学家王孝宇：AI 在智慧城市中的应用

王孝宇认为，在经历了PC互联网、移动互联网时代后，现在人们正在进入AIoT时代。在AIoT时代，传感器将遍布物理世界，人们将拥有无处不在的连接和智能化应用。而AIoT时代到来的前提，是业界能提供有效的数字化技术。在物理世界的行为，只有经过数字化后，才能称为“信息”，有了信息，机器才能更好地描述这个世界，并对物理世界作出反应。

根据AI技术发展升级的路径，王孝宇将智慧城市分为四大阶段。

第一阶段是Sensing（感知），这个阶段的智慧城市能做到的是描述物理社会的基本事实，比如识别图像中的物体是车辆还是人、车牌号是多少、这个人有什么特征。第二阶段是Cross Analysis（交叉分析），这个阶段机器能够在识别基本信息的基础上，根据时间、空间等其他信息进行交叉分析，得出更丰富的信息，比如分析出图片中的人之间的关系等。第三阶段是Data Mining（数据挖掘），这个阶段，机器能分析出造成事件的深层次原因，甚至预测事件的发生，比如预测某路段在某时间段的拥堵情况。第四阶段是Decision Making（决策），即机器能够帮助人作出某些决策，比如预测到某街区在某时间段可能发生某些事件后，进行智能的警员调度，充分安排有限的警力。

王孝宇还说到，尽管智慧城市不同阶段能够实现的应用不同，但无论是在哪一阶段，都离不开算法、算力和大数据，这也是云天励飞从创立之初就一直坚持在这三大方面投入大量研发工作的原因。目前，云天励飞有Arctern算法平台、Moss芯片平台和Matrix大数据平台，构建了完整的AI技术链路，并聚焦公共安全、城市治理、新商业这三大方向打造产品和解决方案。

最后，王孝宇认为，中国经历过商贸造富、互联网和房地产造富的时代，未来我们很可能迎来科技造富的时代，科技将成为新基建中的核心元素。新基建的提出，也将开启中国新一轮智慧城市建设的“黄金时代”，新基建将会带来“新四化”：居民数字化生活、企业数字化经营、社区数字化治理、城市数字化孪生。

暗物智能CEO林倞：从感知到认知 - 多模态人机互动的产业实践

现在人工智能发展到了什么阶段？

阿里巴巴达摩院今年年初给到的科技趋势报告显示，人工智能已经在听、说、看等感知领域达到甚至超越了人类的水平，但在需要外部知识，逻辑推理或领域迁移的认知智能领域还处于初期阶段。

林倞指出，目前很多成功的人工智能应用大部分还是依赖于大数据计算泛式。不管是自监督还是网络搜索的方法，本质上依靠大量的数据，通过亿万参数的神经网络去学习和训练，最后进行分类和回归。某种意义上，人工智能的应用成本一直居高临下。

同时，即便是感知层的智能，特别是计算机视觉，目前系统还有很大的局限性，一是成本问题，二是稳定性、鲁棒性并没有达到或真正超越人的水平。

脑科学研究发现，人的大脑皮层感知区和认知推理区域是不可分割的，视觉跟语言的大部分理解是依靠想象和推测的，并不是依靠大数据的感知，所以林倞提出一个观点：感知智能和认知智能不可分割。

一个婴儿12个月以后会说话，会推测他人的意图。目前AI的智力水平不足12个月大的婴儿，还远未达到认知智能，AI系统欠缺的推测他人的意图（能力）。

林倞的第三个观点是，所谓的认知人工智能必须要理解人的意图，懂因果，可解释。

可以通过丰富的方式跟人交互，能看到，能听懂，能回复，甚至能知道计算数学背后的因果逻辑，这样才能实现从感知到认知的跨越，并且跟人进行高自然度的交互。

林倞介绍了暗物智能的五层技术架构：物联网、感知行为、问题理解、思维和意图、价值和常识。暗物智能沿着此技术架构进行产业实践。

澎思科技首席科学家申省梅：基于迁移学习的视觉智能发展与应用

视觉智能「产学融合」新十年｜CCF-GAIR 2020

申省梅从传统机器学习的痛点、深度学习带来的突破、深度迁移学习、迁移学习中用到的一些技术和实例方面进行了分享，并分析了迁移学习在视觉智能的需求。

传统机器学习的痛点之一是泛化能力差，原因之一是它使用手工特征，靠设计者的经验得到，并无法掌握数据中的非线性变化，每种特征只能对特定的场景或特定的任务有效。泛化能力差导致鲁棒性差，落地成本高，用户满意度差。

深度学习的特征是通过大量数据，用深度神经网络自适应学习到的，可以完全掌握到数据当中的多种变化。深度学习模型为计算机视觉带来的突破，也是在给定的数据集上训练出来的，可以很好地反映给定数据的特点。

而给定的数据集仅仅代表了某一领域，某些应用场景，某种特定任务，比如CCTV监控下的自然图像领域，户外场景，任务是人脸识别，或行人再识别，或行为分析。

尽管在这些特定数据集训练的模型具有很高的准确性，远远超过传统机器学习，但在新的场景下它的性能无法维持，并且在用于新任务的时候可能会导致性能显著下降。深度学习的突破仍然取决于数据。

另外，申省梅还指出深度学习AI落地痛点：

1、感知环境及应用场景的千变万化：天气、光线、角度、遮挡等因素变化导致成像质量不同并且质量不佳；训练数据与落地场景的不一致导致AI模型性能徒然下降；

2、重新训练模型需要大量的AI专业人才来完成，周期长成本高见效慢，已经成为AI普惠的障碍；

3、AI人才的短缺以及成本昂贵会阻碍企业采纳人工智能以及它带来的效益。

澎思的使命是“AI即服务”，可以解决痛点，实现普惠AI，澎思通过AIOT平台生态技术部署，实现“AI服务在线+AI功能定制终端+自闭环生态”。

通用智能是下一代AI发展的必然趋势，申省梅表示，澎思会在迁移学习、无监督、自监督学习、小样本学习、多模态学习这几个真正反映AI落地的实际情况下落地生根。

澎思的目标是在算法技术上走在国际计算机视觉的前沿，基于AI落地为主的前沿技术开发，建设云端AI在线迁移学习平台，加强端侧AI轻量化的设计体系，推动以用户价值为导向的To B/To C产品创新。

商汤科技联合创始人林达华：人工智能的惠普与开放之路

视觉智能「产学融合」新十年｜CCF-GAIR 2020

林达华归纳了人工智能发展四个关键要素：科研、数据、算力、落地。

基础研究和技术能力决定了产业化能走多远、走多快。到了具体的领域，数据、算力、落地场景是三个最为关键的要素，当他们被连接在一起时，人工智能技术会泛化出巨大的力量，推动技术前进和产业升级。

商汤从底层到应用层都有自研的技术，在核心底层建立深度学习训练平台。

不断建设底层技术的过程中，商汤充分认识到，对人工智能的发展来说，计算能力是必不可少的重要支撑和战略基石。所以从2015年开始到现在，商汤持续建立以GPU为核心的人工智能超算平台。

林达华介绍，到现在为止，已经建立了超过2万台GPU的大型人工智能超算集群，其中最大的集群已经连接了超过3000块GPU，可以支持千亿级模型训练和上百亿大型数据集模型训练。其计算集群的总计算能力，可以比肩世界上的最高级别超算。

林达华表示，人工智能对社会的价值有三方面：第一，经济角度。它可以提升生产的效率，通过自动化和人工智能技术变革产业经济，实现产业的升级。第二，通过人工智能技术进入社会生活的方方面面，给社会和人民大众赋能百业。最后，创造美好生活，推动社会进步。

智慧城市除了安防以外，其实还有非常多的维度，随着人工智能产业落地的深化，在整个社会很多的行业，它其实都能受惠人工智能技术的进步和落地。

微软亚洲研究院首席研究员王井东：高分辨率网络：一种视觉识别的通用网络架构

视觉智能「产学融合」新十年｜CCF-GAIR 2020

从2012年以来，随着AlexNet横空出世，深度神经网络在计算机视觉领域成为主流的方法。2014年，谷歌发明出了GoogleNet，牛津大学发明了VGGNet，2015年微软发明了ResNet，2016年康奈尔大学和清华大学发明了DenseNet，这几个结构都是围绕分类任务而发明的网络结构。

除了分类以外，在计算机视觉里面还有其它的重要任务，比如图像分割、人脸关键点的检测、人体姿态估计、目标检测等等。

下一代的网络结构是什么样的呢？是否适用于更为广泛的视觉识别问题？

王井东首先介绍了分类网络结构，它是包括一系列减小表征空间大小的过程，最终得到一个低分辨率的表征，然后进行分类，但是分割等任务需要空间精度高的表征，即高分辨率表征。

学习高分辨率表征，有一种叫上采样的通用方法，包括两个步骤，第一个步骤是分类的网络架构，表征开始比较大，然后慢慢变小。第二个步骤，通过上采样的方法逐步从低分辨率恢复高分辨率。这样的方法获得的特征空间精度较弱。

而王井东团队研发的高分辨率网络架构（HRNet）没有沿用以前的分类架构，也不是从低分辨率恢复到高分辨率，自始至终维持高分辨率。

他们让高中低分辨率不停地交互，使得高分辨率可以拿到低分辨率语义性比较强的表征，低分辨率可以拿到高分辨率的空间精度比较强的表征，不停地融合，最终取得更强的高分辨率表征。

在人体姿态、分割、人脸关键点检测、目标检测等任务中，HRNet从参数量、计算量以及最终结果看，高分辨率结构都非常有优势。HRNet在人体姿态估计的任务上，已经成为标准的方法；在分割任务上，由于其更好的性能，也被大家广泛使用。雷锋网雷锋网雷锋网(公众号：雷锋网)

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）