不知道朋友们在日常生活中,遇到不认识的花花草草有没有拿出手机进行物体识别呢?我们经常会遇到一个问题,就是使用不同的软件进行物品识别会得到不同的结果,这个时候就剩下我们在风中凌乱…识别结果的差异通常是由于不同软件的识别算法和AI模型不同导致的。华为视觉计划的目的就是构建一个更高效更准确的AI视觉模型。
因为不同的物体识别软件在数据、模型、知识三个层面上不尽相同,也就是AI面临的三大挑战:数据敏感,模型敏感,知识缺乏。这也就导致了AI可复制性弱,开发成本、计算成本、人力成本居高不下、工具开发不完善等问题。
华为视觉计划希望构建一个高效开发平台,帮助企业、工厂、开发者等解决例如物体识别准确度等实际问题。并且要做到用户仅提供数据和成本需求,平台自动完成开发部署。为了实现这个目标提出了三个解决方向,分别针对AI研究面临的三大挑战:数据高效,模型高效,知识高效。具体定义内容朋友们可以看下图:
进一步的,解决方向仅仅只是解决方向,真正落在实际还是需要相对应的技术研究。在这里,简单的和朋友们一起看看华为视觉计划做出的技术研究。
在数据敏感问题中,经常出现的就是数据过少或者数据单一,做物体识别,所识别的物体都没有或者很少在AI模型中出现,当然也就识别不出来或者识别出错。针对这个问题,华为视觉计划提出数据魔方和数据冰山,数据魔方就是使用多模态数据,其中基于多模态特征融合的3D目标检测方法显著提升了目标检测精度,而自适应数据增强策略进一步的提升数据增强的效率。数据冰山是小数据撬动大数据,用冰山浮在水面上的小部分带动水下的大部分,其中有一个算法是异步的教师-学生优化算法,算法在典型的医疗影像和自然图像上取得了显著提升。
在模型敏感问题中,有可能模型太大,算出来非常耗费时间和资源,此时就需要对模型进行瘦身,华为视觉计划提供了构建了网络架构搜索→网络架构调整→知识蒸馏的完整流程,能够输出各种不同复杂度的网络架构。又或者模型不够好,需要提升模型准确度,此时就需要更多的算力,更大的训练量去构建模型。
针对知识缺乏,需要从数据中抽取通用知识,其中使用基于层次化语义对齐的图像预训练方法,充分利用了网络上的无标签数据,应用范围更广。又或者数据不够,就在虚拟场景引入真实场景,虚实合一,利用虚拟场景生成数据,结合真实数据,高效迁移至不同场景。
以上的六个技术,华为视觉计划通过此构建了一个高效开发平台。仔细看上图可以发现第一列的技术:数据魔方、模型摸高、万物预视使得AI更强大,第二列:数据冰山、模型瘦身、虚实合一使得AI更便捷。
最后,如果朋友们想知道华为视觉计划现阶段已公开的研究成果,可以去本文后面链接查看。回到实际问题,所有的学术成果、竞赛成果和在计算机视觉方向的探索等都是为了实际的项目,通过这些经验的不断积累和学术研究,华为视觉计划为企业、开发者、用户解决了AI视觉方面的重大难题,使得自动驾驶、目标检测更为高效便捷。
最后的最后,我想说的就是,华为视觉计划可能不是完全正确,也可能不是最终解决方案,但这是在人工智能研究领域的一次有益的探索和实践。至少我们看到了,华为在尝试解决这个问题,给出了自己的方案和策略,在尝试为企业、为我们提供更好更便捷的服务。
附:华为云直播华为视觉计划三大方向、六大课题,带您走进CV新时代,点此回看
查看活动:https://bbs.huaweicloud.com/blogs/266530