从声学智能到智能助手,谁能成为中国版的Alexa? | CCF-GAIR 2017

雷锋网消息,2017年7月7日至9日,全球人工智能与机器人峰会CCF-GAIR大会在深圳大中华喜来登酒店举行。本次由中国计算机学会(CCF)主办、雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的大会聚集了全球30多位顶级院士、近300家AI明星AI企业 ,参会人数规模达3000余人。

8日下午的智能助手专场举行了主题为“从声学智能到智能助手”的圆桌对话。元趣CEO吴义坚、蓦然认知CEO戴帅湘、Sugr米唐科技CEO宋少鹏作为受邀嘉宾进行分享,门罗机器人CEO杨兴义主持对话。几位嘉宾分别在会上就智能音箱、智能机器人等设备的发展现状和前景发表了自己的看法,包括智能助手现有的局限性、需要克服的困难及中国未来智能设备的发展周期和前景等方面。

从声学智能到智能助手,谁能成为中国版的Alexa? | CCF-GAIR 2017

从左至右为门罗机器人CEO杨兴义、sugr米唐科技CEO宋少鹏、蓦然认知CEO戴帅湘、元趣CEO吴义坚

杨兴义:Alexa是目前智能音箱销售量全球第一的平台。我问第一个共性的问题,亚马逊、苹果、谷歌等国外几大巨头都做智能音箱、智能助手类似的东西,包括他们做生态。中国的巨头也做类似的事情,我想请教第一个问题,你们认为谁会成为中国的Alexa? 

吴义坚:Alexa的成功不仅仅是技术上,更是产品上的成功,技术当然是很重要的基础,因为亚马逊不仅有内容的服务,还包括云端的其他支持,不是简单的技术。我们做语音很多年,发现语音看起来入口很小,但是后面可以做很多事情。亚马逊做这个事情的时候迈出的步子很小,虽然一开始不叫音箱,但是切入点很小,就是音箱,而且一开始是稍微智能、音质很好、价格很低的音箱,这是它成功的的因素。国内谁具备这样的基础?从我的感觉,阿里是有可能的。阿里的人工智能语音正在全球范围内吸收技术人才。因此它的技术应该很强,而且具备商业化价值,同时也有音乐等方面的服务。我不是特别看好百度,只是从单品上而言,阿里可能更有机会一点。

戴帅湘:Alexa和Echo是不一样的,Alexa是人和服务之间对接,通过声音做媒介的生态系统,它的理想是很大的。我不觉得现在BAT和其他公司有可能做到这样的地步,因为这种生态是翻天覆地变化的,我觉得需要从头到后的酝酿过程,我坚信它会出现在我们中国新生代的创业公司中。你说Echo音响卖500万还是300万,这不好说,这里面有运营手段等一系列的因素。Alexa还在酝酿,你问我谁会成为中国市场上的Alexa,我觉得我们可能是。

宋少鹏:我觉得杨总的问题问得很好,我想反问一下,中国有没有诞生Alexa的土壤?

杨兴义:从我的理解来说,我觉得Alexa代表了亚马逊在这块生态领域努力的结果。亚马逊为这个事情做了很多东西,包括软件、硬件、开发者生态。我觉得中国目前有条件,有几家公司都有可能性,但是谁做得好、谁最后的领先,我想听你的观点。

宋少鹏:我首先质疑这个问题,谁会成为中国的Alexa?我们看一下历史,这是面向未来的问题,我们倒回去看历史,PC操作系统时代,中国曾经很努力的去尝试过,但是仍然被微软Windows一统天下。移动操作系统时代,中国也很努力尝试过,包括中国移动和其他一些公司,但仍然是谷歌Android的天下。人机对话的操作系统时代,中国的很多公司都在很努力的尝试,我们看到中国的互联网势力在全球也处在了领先地位,衷心希望成长出Alexa,但是作为戴总最亲密的朋友,我非常希望蓦然认知成为中国的Alexa。

杨兴义:第二个问题,接着Alexa往后说,很多公司都做了智能音箱,嘉宾列了很多。我相信除了巨头在做智能音箱,还有很多深圳的公司在做,你们怎么看企业入局智能音箱这件事、结局怎么样,会不会有些公司很凄惨?

宋少鹏:我们是在水生火热的市场里泡着,所以和大家分享一下。我觉得这是一件好事,比如杨总讲中国具不具备这样的土壤,大家都认为具备。具备这样的土壤要撒很多种子,有土壤和种子才能长出小苗,小苗才有可能长成参天大树。戴总讲机会属于创业公司,BAT等在做,硬件公司也做,深圳许多外贸公司也在做。我觉得这是一个大考试,这是自然的经济场,大家进行最直接的竞争,最终竞争活下来的一定是最具优势的企业、最强壮的企业、最勇猛的企业,这样的企业才能代表我们国家和产业的水平。所以我认为这是一件大好事。自然的规律永远一样,开始充分的竞争,物种的进化,最适宜环境生态的才能存活、成长、壮大,所以最后肯定是汇聚,但是这个市场还在初期,还在进行充分的从上到下、从大到小的竞争。

戴帅湘:我演讲的时候提到,我本人是不看好音箱这个事情的,但是商业就是如此,一旦有些成功的案例在大洋彼岸开始发酵,我们就会开始进行模仿,即使市场不是那么大。我觉得这是一个好事。大公司砸钱至少有一个好处就是可以教育民众,这对交互产业链是比较好的事。但是音箱是不是好的载体,我们现在谁也不能说,谁也说不好,中美文化的差异还是很大。我坚定的不看好音箱。   

吴义坚:有一个观点和前两位差不多,不管未来怎么样,到目前为止,Echo音箱是唯一一个以语音交互为核心,具有实用价值的产品。因为我做了十几年的语音,从IBM90年代末到比尔·盖茨下一代语音交互界面,做了这么多年才发现语音技术没有什么用,触摸交互改变了整个世界。早年讲车载,车载不是新东西,车是你觉得离语音最近的时候,手和眼睛都被车控制,语音就是刚需中的刚需,但做了十几年还没有成功案例。我当时做机器人也是出于这个。看到Echo这个产品,我觉得未来不是虚火,而是具有教育用户、教育市场的意义,给行业树立很好的标杆。亚马逊这家公司确实做得很出色,Siri大家都知道,但是没有什么太多的实用性用。但是Echo不一样,虽然最开始用处很小,但是证明了确实有用。国内很好,有这么多厂商在做,你可以看到任何市场都是如此,一开始百花齐放,甚至鱼龙混杂,但是经过市场的的自然淘汰、进化,最终出来的才是真正好的产品。

杨兴义:其实我的判断是这样的,中国目前机器人的品类非常不成熟,目前标准化的产品,有两个品类好一点,一个是无人机大疆,二是扫地机器人科沃斯。双十一卖几十亿,下一个标准化的品类是智能音箱或者家里的场景。第三个问题,我想针对不同的嘉宾问个性化的问题。吴总,你做儿童机器人,你觉得儿童机器人是一个刚需吗?人工智能发展像2岁的孩子,是孩子玩儿童机器人,还是儿童机器人玩孩子?

吴义坚:谈扫地机器人或者智能音箱,说这个名词的时候,你已经知道主要是干什么。但是当你说儿童机器人的时候,你不知道它要干嘛。所以这个行业要教育用户的第一点是儿童机器人到底用来干什么。我们回答有没有用之前先回答到底用来干什么。玩两下的价值是玩具,但是机器人绝对不仅仅停留在这么一个阶段。再深一点是娱乐,儿童产品和普通产品还不一样,因为是家长买单、小孩子使用。这里面我们切中的点是娱乐和教育,娱乐是因为小孩子有更多的时间,教育是让小孩子学习。这两点做好了,不管叫儿童机器人还是其他名字都不重要。做技术的想炫技术,但是用户买单的不是技术,是通过技术能提供什么有价值的内容和服务。我们在这块领域是一直贯彻这个。教育很重要,我们希望和语言相关,比如学英语、练口语,这点要做到最极致。像扫地机器人,不需要干什么,就是扫地,只要扫好就可以买单。儿童机器人也是如此,这其实是一个非常大的概念,这里面有编程类机器人、拼装类机器人,还有玩具机器人,我们是偏教育,甚至主打英语这点。儿童机器人这个市场是否存在,还是在于你这个产品到底给用户提供哪点价值,如果这个价值有人买单,即便不叫机器人,也存在这个市场。

杨兴义:蓦然做车载和家居两个场景,我昨天上午体验了场景的案例。在中国也有一些语音语义的技术公司,可能比你还早一点做这两个场景,包括车载、家居和互联网。蓦然认知作为新兴创业公司,你的优势在哪里,怎么打败竞争对手?

戴帅湘:2006年、2007年也有人做团购、售后服务,但是你会发现后面很多年才爆发,反而是后面的公司真正成功了。AI可能会更不一样,这是因为技术的积累需要一个过程,不是谁先就谁好。技术和产品还是有些差别,只有用户认知、工业积累、学术界研发达到一定的点才能得到合适的结果。我们以前的一些公司很少有工业和学术的积累,因为没有需求,主要的积累是在搜索公司。以前有语音进入汽车、电视机,但是单向指令和对话没有触碰到交互的本质——对话。0和0.1没有差别,当到1的时候才有用。我们真正了解了核心的部分,但是要和更多的厂家合作,语音识别纯粹处理起来是缓慢的过程。我觉得这是需要澄清的事情。竞争对手确实会先有渠道的优势、商业的优势,我们也认同,但是我觉得还是有机会的。 

杨兴义:宋总,未来中国有很多人工智能的产品、智能助手的产品走向全世界,我们有可能用到中国的Alexa,但是目前还是以亚马逊的Alexa为主,我们走向海外市场,你有什么建议?

宋少鹏:首先,产品体验是最根本的,无论是在中国还是国际运营一款产品,最终胜出有几个因素,用户体验我认为是很核心的因素。二是整合性因素,产品的运营,产品的设计、设计语言、品牌、占据的用户场景,基于用户场景你提供的服务,在服务的需求下选择的技术,你提供什么样的成本(性价比),最终还有客服、售后服务等等,所有这些是一个完整的体系,像考GRE,里面有语法、单词、写作、听力,这是一样的,缺一不可。我们帮助很多团队做很多事情,我们在Alexa上面一个全站式团队,除了语音信号处理、唤醒词、语义内容的对接、流媒体对接、产品之外的商务对接、运营的对接,我们可以提供全套的服务、技术、咨询。

出海的产品以用户体验为先、以系统能力做支撑,系统能够包括品牌的定义、产品场景的选择、场景所带来服务的选择、服务带来的技术选择,以及产品出去之后所有背后的支撑,包括物流、客服等一系列的能力。

杨兴义:我们觉得现在的技术、产品,真正到能够拥有很好的用户体验,其实可能还有一些距离,包括我们的识别准确率、成功唤醒率,还有噪音环境下的处理,知识图谱相关的内容,用户和功能进行交互的过程,商业的闭环还没有那么成熟。我觉得智能语音助手的路很长,并不像现在市场这么火热。现在我问最后一个问题,你们认为未来真正特别棒的语音助手应该是什么样的形态或者什么样的功能,或者怎么定义未来真正好的产品?

吴义坚:你说未来是多少年?

杨兴义:5-10年。

吴义坚:50年以后我想反而好说。5-10年这个阶段可能还不会出现纯通用型的产品。如果一个机器人什么都可以干,50年左右应该还可以,5-10年是各个领域在深耕,但是各个领域之间会打通,刚才说到车、手机、平板,里面一定存在能处理多场景的助手类服务。我认为语音是AI助手,可能是它和你进行比较自然的交互,但是一定是多模态,要有视觉,甚至要有触摸、摄像头、体感,助手会把这些信息融合得更好,而不是像现在这样,现在的助手是孤立的,人脸识别就是人脸识别,和语音没有关系,那时候感知信息在智能化方面会做更好的融合。助手可能通过你走路的姿态、人脸、声音,很多方面融合在一起,为你后续服务做了很好的准备。我觉得这是5-10年内可以做到的。

至于说具体的形态,我看不清,因为我刚才说的这些东西可以存在于各种形态里面,智能手机绝对是一个中心,它是单中心、多个副中心还是多中心,这个地方我还真的没有特别好的答案,因为这里面有太多的可能性。50年反倒简单,50年之后一定是机器人,这个设备不一定叫手机,反正就是一个设备。消费品怎么进化到哪一步很难说。

戴帅湘:我是技术出生,所以我是坚定的乐观主义者,10年内一定会出现大的交互层面的变化,一定会产生以语音为主,以其他方式为辅的交互形态,这仅仅只是交互的形态。对于产品来说,我还是用之前说的一句话描述:应用你感觉不到它的存在,但是它的确无处不在。所有的设备并不是要新品类,对现有设备的交互的革新,打造新交互的打造,我觉得帮助传统产业、传统设备做到这样一个变化,足以形成非常巨大的生态。我觉得这是融合在所有设备里,可能一个设备就足够,当然可能出现新的设备,但是它的交互方式就是全部核心。我觉得10年内可以做到这点。

宋少鹏:我的两位同学一位在微软做研究,一位在百度做研究,讲得很深奥。我之前是做产品的,如果有幸和团队把Sugr打造成稳定、盈利的公司,我对智能助手会有一个具像的需求。我对产品的定义是:“召之即来、挥之即去,所见所得,如影随形”。我给大家举一个例子,打个响指飞过来,有点像蜻蜓。我说我要参加雷锋网的大会,他带着我走。到了,他就躲起来。如果我想订机票、订餐,需要他的时候就会飞过来,如果需要地图,它全息投一个屏幕给我看。所以我相信这在有限的时间内,所有在座的人一定可以感受到这样的场景,我们将来会往这个方向努力。技术永远是在你身边,在最合适的时候,用最合适的方式给你最合适的信息,这是我们对长远助手的展望。

雷锋网原创文章,未经授权禁止转载。详情见转载须知

从声学智能到智能助手,谁能成为中国版的Alexa? | CCF-GAIR 2017

(完)