(update)WWDC已经结束,苹果开放了Siri的第三方权限,但对其他两项没有提及,到底是苹果认为结果还不成熟不予公布还是遇到了无法克服的技术问题,我们不得而知。
但我们还是很想知道,为什么苹果不给出一些哪怕阶段性的成果呢。
早在2010年,苹果就收购了英国的语音识别公司Siri,彼时人工智能的大潮还在酝酿之中。然而多年过去了,Siri却一直没能有明显的进步。尽管基于iPhone的巨大用户基数,在Google Now、Echo、Cortana等服务中Siri的使用人数是最多的,但使用时长最长的却是亚马逊的Echo——不用说它还是一台音响而不是手机。
人们普遍认为苹果已经在人工智能领域的战斗中落于下风,但有人却持相反意见:有20余年支付领域从业经验的Brian Roemmele认为,质疑苹果的人完全忽视了过去几年苹果的动作。它先是收购了Emotient、Perceptio,这两家都是图像识别领域的公司,其中Emotient的技术能读懂用户面部多达43块肌肉的运动来解读用户表情中的情感意图,然后是VocalIQ(vocaliq),这家公司据说拥有划时代的语音识别技术。所有这些似乎都表明,苹果在AI领域确实有所布局。
鉴于苹果一贯有严格保密的传统,它确实有可能一直在秘密的筹划着一次大升级,之前曾有消息说苹果将在此次WWDC上宣布发布Mac版Siri(就像微软的科塔娜),所以有理由相信如果苹果一直在秘密准备新一代的Siri,很可能也会在这次大会上宣布。但是事实是,苹果在这方面确实已经落后的有点多了。如果苹果不拿出点真材实料来,很难完成反超。但说不定苹果真有料,根据苹果以往的动作,我们猜测了几个可能在Siri身上出现的重磅改变,并且相信如果真的实现了这样的改变,苹果可以立刻横扫江湖。
向第三方应用开放接口
相关调查的很多受访者表示,自己使用Siri最多的用途就是设闹钟……依苹果的行事风格来看,或许不向第三方应用开放API是为了维持Siri的服务质量,并且为将来构建苹果自己的生态做准备,但实际上如今属于苹果自己的生态(注意这个“自己”)早已不如第三方应用构成的生态绚丽多彩了。iOS相对于其他的应用最大的优势就是它积累下来的完美的开发者群体,这些第三方开发者总共已经创造出了上千万款APP来帮助iPhone实现各种各样的功能。Siri目前定位“私人语音助手”,却没办法帮用户们实现这些APP能提供的功能,不得不说是一个很大的遗憾。想象一下,如果你打开Sir就能跟它说:“Siri,帮我叫个快车。Siri,帮我看一下微信朋友圈有几条新消息了”,无疑是一件很让人兴奋的事。事实上现在Echo已经能做到很多这类的事了。
把语音识别准确度提升到很高,很高
Google Venture的合伙人M.G.Siegler曾经在一篇文章里提到过,Siri的语音识别成功率堪称惨不忍睹,他试图唤醒Siri的时候只有一半的概率会成功。而Echo的唤醒几乎百发百中。这让Echo用起来舒心很多。
对于一个语音助手来说,语音识别的准确率无疑是最基本的指标了,但事实上现在很多语音助手的识别准确率(尤其是在有环境干扰)的情况下还达不到令人舒适的程度。跟他们讲话的时候需要用一种非常刻意的、字腔正圆的语气才能基本保证说出来的话被正确识别。毫无疑问,苹果已经认识到这一点了,可以说它收购VocalIQ的主要原因之一就是为了加强自己产品的语音识别率,因为据说在VocalIQ被收购时无论是苹果、谷歌还是其他语音助手的成功率都很低,而VocalIQ的产品那时的成功率已经有90%了。
不确定苹果会不会在发布新一代Siri的时候强调这一点,不过苹果最好是下了大工夫来优化相关结果并且取得了极好的成效。因为竞争对手们在这方面的水平已经相当高了。
语境分析
这是我们最着重想要强调的一点。据VocalIQ所说,他们除了有准确率高得吓人的语音识别技术外,还拥有让语音助手能结合上下文来做出应对的技术。这点如果能在Siri上实现,绝对算是近几年语音助手界最重磅的改进了。其实有些语音助手:比如微软的小冰除了助手之外,还有一个“聊天机器人”的定位。但所有“聊天机器人”到目前都更像是一个玩具,而不是真正能拿来聊天的东西,就是因为它们无法记住对话的上下文。事实上,我们觉得这才是阻碍语音助手普及的最大原因。
这样的对话是很让人沮丧的,目前AI在对话中如果能记住什么东西,也仅限于用户用特定的:“帮我记住xxxx”之类的句式跟他们的助手强调一遍后,才有可能完成记忆。而在自然情况下的对话之中,AI是根本没有记忆力的。尽管所有公司都在极力试图让人们在一个问答之内就解决自己的问题,但显然有很多事用简单一句话是根本没法解决的,因此这些助手才会一直不停地让人感觉到它们真的就只是一个机器助手,而且一点都不智能。
而VocalIQ举出的例子让人感觉这些智能语音助手又向真正智能的方向迈出了一大步:
比如当我们询问“在附近找一家有停车场、WiFi,方便儿童用餐的中餐馆”时,大多数语音助手会难以应对,但是VocalIQ可以处理,且准确率高达90%,而谷歌Now、苹果Siri和微软Cortana的成功率只有20%。不仅如此,VocalIQ更是能感知语境的变化,像人一样记住上下文。这是一个巨大的突破,也是Siri远不能及的。在前面中餐馆的例子中,当我们说完所有条件之后,改变了主意,只需对VocalIQ的语音助手说“换成墨西哥风味餐厅”, VocalIQ就可理解你的意思,并且保留前面“停车场、WiFi”等条件信息。
但是我们仍有疑问:Vocal能做到这个,到底是因为它真的理解了我们两句话之间的关系,还是只是被编程成拥有这样的功能,就像我们现在能用特定的句式让我们的语音助手帮我们记住东西那样?其实按照现有AI的发展程度,我们很怀疑是后者,但不管怎样,能做到这个程度也算是一个很大的进步。单是做到这点,就足以让Siri反超竞争对手并甩开一个身位。同时还能让Siri从语音助手向一个可以聊天的“朋友”迈进一大步。
苹果还能不能“不鸣则已一鸣惊人”
跟上面提到的这几点相比,所谓的“支持Mac”简直根本就不能算是项改进了。最近看衰苹果的风声颇盛,AppleWatch不愠不火,iPhone销量历史首降。人工智能和汽车领域也没有跟上。但虽然苹果一直被看做是一家硬件公司,它重视的其实更多是软件和生态,比如这次苹果就提前宣布将改进AppStore的利润分成机制。因此苹果没理由会对能极大改善交互体验的人工智能领域没有兴趣,收购这些公司算是一个重视的例证。而到底苹果能不能凭借这次Siri呼之欲出的大更新扭转局面,就看明早凌晨1点的WWDC的了。
题图来自apple.com
雷锋网原创文章,未经授权禁止转载。详情见转载须知。