找东西不再瞎蒙！CMU、FAIR开发出有常识的机器人

作者 | 青暮

编辑 | 丛末

CMU和FAIR合作开发了一款语义导航系统SemExp，可以利用常识来进行导航和执行寻物任务，SemExp还在上个月的CVPR室内目标导航挑战赛中赢得了冠军。

如果SemExp事先知道沙发在客厅，冰箱在厨房，它在寻找沙发或冰箱时会更有效率，即使是在一个陌生的地方。也就是说，SemExp可以使用类似于人类常识的知识来找东西。

上个月，名为SemExp的机器人在CVPR上赢得了室内目标导航挑战赛（Habitat ObjectNav Challenge），险胜三星中国研究院。这是CMU团队在年度挑战赛中连续第二次获得第一名。

SemExp（即目标导向的语义探索）使用机器学习方法来寻找目标物体。SemExp能够区分茶几和厨房桌子，从而推断出它位于哪个房间。

CMU机器学习系博士生Devendra S. Chaplot说，SemExp可以战略性地思考如何搜索事物。也就是说，SemExp理解物体和房间布局之间的语义关系。

相比之下，传统的机器人导航系统通过构建显示障碍物的地图来探索空间。机器人最终能成功找到目标，但是路线可能是迂回曲折的，会进行很多不必要的探索。

过去使用机器学习来训练语义导航系统的尝试效果不佳，因为它们倾向于记住目标及其在特定环境中的位置。这些环境不仅复杂，而且系统通常难以将其学到的知识泛化到不同的环境。一旦到了新环境，系统就很难利用已有的经验执行类似的任务。SemExp采用领域无关的模块化方法解决了这个问题，它不仅能够适应新的虚拟环境，还能迁移到现实世界中。

SemExp：要找烤箱（oven）？烤箱不也在厨房里嘛。

这项研究由Chaplot、CMU Robotics Institute副教授Abhinav Gupta、CMU机器学习系教授Ruslan Salakhutdinov和FAIR的Dhiraj Gandhi共同完成。

找东西不再瞎蒙！CMU、FAIR开发出有常识的机器人

论文地址：https://arxiv.org/pdf/2007.00643.pdf

项目地址：https://www.cs.cmu.edu/~dchaplot/projects/semantic-exploration.html

参考内容：https://www.cmu.edu/news/stories/archives/2020/july/robot-navigation.html

Chaplot说，该系统利用其语义洞察力来确定寻找特定物体的最佳位置。“一旦决定要去哪里，就可以使用经典规划方法来达到目标。”

事实证明，这种模块化方法在很多方面富有成效。SemExp的学习过程专注于目标与房间布局之间的关系，而不是学习路线规划；应用语义推理确定最有效的搜索策略；最后，应用经典的导航规划使机器人到达目的地。

语义导航将使人们与机器人的交互变得更加容易，人们能够简单地告诉机器人在特定位置取回一件物品。

学习“餐桌在哪里”的常识

在寻找“餐桌”的任务中，就语义理解而言，涉及目标检测，即“餐桌”的外观。研究者利用了现有的预训练目标检测和语义分割模型来构建语义图，而不是从头开始学习。

此外，还涉及对更可能在哪里找到“餐桌”的场景的理解。这需要长期的情节记忆以及学习场景中目标相对位置的语义先验。

学习语义先验，即目标和区域关联的常识，可以使智能体使用情节记忆来决定下一个要探索的区域，以便在最短的时间内找到目标。

长期的情景记忆使智能体可以跟踪去过和未去过的区域。

SemExp由两个模块组成，即语义映射模块（Semantic Mapping）和面向目标的语义策略模块（Goal-Oriented Semantic Policy）。

语义映射模块用于构建明确的语义图，面向目标的语义策略模块使用可理解语义的长期策略来学习语义先验。

语义映射模块接收RGB（It）和景深（Dt）图像序列，并生成自上而下的语义图。找东西不再瞎蒙！CMU、FAIR开发出有常识的机器人

面向目标的语义策略根据当前的语义图确定长期目标，以达到给定的目标（G）。

研究者使用神经网络来学习语义先验。神经网络以语义图、智能体的当前和过去位置以及目标作为输入，并预测自上而下的地图空间中的长期目标。如此，就能将目标类别和通常所处的区域关联起来。智能体看不到目标时，就先以区域为线索。比如智能体在找餐桌时，所处位置看不到餐桌，就会先以餐桌可能在的区域为线索（餐桌一般放在客厅吧）。

面向目标的语义策略使用强化学习进行训练，将以目标与智能体的距离减小作为奖励。

实验结果

下图展示了Gibson测试集场景中SemExp的示例轨迹。智能体看到的采样图像显示在上行，预测的语义图显示在下行。

SemExp的目标是“床”。面向目标的语义策略选择的长期目标以蓝色显示。带有智能体轨迹的真实地图（智能体看不到）显示在右侧，以供参考。

下图展示了SemExp寻找椅子的第一人称视角、语义图和轨迹图。

如下表所示，与Gibson和MP3D数据集的基线相比，SemExp的性能均达到最佳。找东西不再瞎蒙！CMU、FAIR开发出有常识的机器人

SemExp没有使用覆盖率最大化探索策略（目标不可见），而是训练面向目标的语义探索策略，该策略学习语义先验以进行有效导航。如此，可以节省不必要的全面探索的时间。

下图展示了使用面向目标策略（图左）和不使用面向目标策略（图右）的探索轨迹，前者使用了81s找到目标，后者使用了332s才找到同一个目标。

下图展示了SemExp迁移至真实世界的表现，SemExp的目标是“盆栽”，它成功找到了。

SemExp学到了多少常识？

CMU在官网报道中宣称SemExp利用了常识执行寻物任务，但实际上这种常识还是非常有限的，它只是建立了某个物体和通常存在区域的统计关联。没错，冰箱大概率存在厨房，但在办公室场景里，冰箱一般而言会有，但厨房就很少见了。

一般而言，常识是无法穷尽的不成文规则，无法用逻辑以有限的方式进行压缩，何况常识之间甚至可能是互相冲突的（例如印度人的摇头表示肯定，和大多数国家相反）。常识是人类对世界运作方式的印象，由数不清的知识片段构成。常识对于人类的预测能力很有帮助，可以帮助人类在日常生活中保证生存以及便利地解决问题。

要理解常识，语言通常是不够的，需要结合人的感觉和理解，并且要融入统一的场景，这必然涉及到多模态数据的处理。

要解决常识问题，还有很长的路要走。即便是强大如OpenAI开发的GPT-2那样的语言模型，也经不住常识问题的考验（它不知道木柴+火柴=火）。Douglas Lenat于1984年设立的Cyc知识库不可能通过编写条目穷尽所有的常识，也无法克服脆弱性问题（常识应用中的模棱两可现象）。艾伦人工智能研究所提出的自动知识图谱构建模型COMET，将常识推理想象成对新输入生成即便不完美也是合理的响应过程，作为融合深度学习和符号推理的尝试，在一定程度上缓解了覆盖性和脆弱性问题。

CMU的这项研究值得称道的地方在于，将视觉信息转换为语义知识构建导航系统的常识，将多种模态的数据进行了关联，而没有局限于语言知识。SemExp在构建常识的路上，走出了稳健的一步。

雷锋网雷锋网(公众号：雷锋网)雷锋网

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）