在今天举行的全球人工智能与机器人峰会上,小米科技联合创始人黄江吉(kk),带着对一系列小米智能家居设备的介绍,分享了小米对人工智能技术发展的方法论。
绝大部分业内人士认为,人工智能的成功归功于大数据,而黄江吉认为人工智能的发展离不开这三个前提:产品+大数据+机器学习。
首先,机器学习与大数据是离不开高活跃度的产品,这些产品包括常用软件和类似如手环、电视、盒子、网路设备以及智能家居等智能硬件。
黄江吉提到,小米手机有两亿MIUI系统用户,其中日活跃1000万的应用有8个,而日活超100万的有17个。这为大数据和机器学习能力的提升打好了基础。
当高活跃度的产品落地时,就会产生大量数据,而建立高质量的数据,则通过数据采集,数据清洗,数据挖掘,数据智能等方式来实现。我们知道,任何数据最终都是为人服务,因此建立每个人的用户画像就显得尤为重要。小米为建立用户画像收集了各个场景、以及各个碎片时间产生的数据,数据量共达200TB。
此外,黄江吉指出,他们了解用户关注的内容需要通过搜索、推荐、导流、人工运营的方式来进行。最后有人向黄江吉提出以下两个问题:
您认为小米目前最智能的产品是什么?
黄江吉:你问一个公开的KK的话,我会告诉你我们的产品都很智能化了,如果你问了关门的KK的话,我会告诉你没有一个产品真的做到又简单,甚至是不用你的干预它就可以把事情做得极值,这个有点苛求,如果你问我们智能化度做得最高的,毫无疑问就是我们的手机。
我不知道大家知道不知道小米的开发模式,你买了小米手机之后我们基本上的系统是每周都升级一次,从5年前开始第一款手机到今天我们基本上每一周更新一次,里面的全部的更新大部分需求是来自用户的,就是我们每周其实是可以让他们告诉我们本周更新他满足的前三样东西是什么,也告诉我们他不满意的很烂的前三样东西是什么,每周给我们投票,我们做到今天手机是最成熟的业务,它的智能度也是相对比较成熟的。
小米的重点不是在前端,如果是在前端的话你做后面的数据分析有什么用,怎么产业化,怎么赚钱?
黄江吉:我希望我今天的报告解决刚才的问题,如果你把一个事情做好了你就不用分前端、后端,云端、中端。我们首先要把这个产品的硬件做好,然后把系统的软件做好,才有真实的用户愿意去使用这个产品,然后才有云端。
有云端才可以产生数据,。产生了这个数据之后才可以去机器学习也好,怎么样去深度学习也好,让它反过来变成一个数据模型,把你的产品做得越来越智能。里面的商业化的才可以把它的体验度做得越来越好。你真的要把智能落地的话,你不把每个圈落地的话,你是不可能做到智能化的。
以下是黄江吉演讲实录:
(注:小标题是为了阅读方便而加。)
各位专家各位来宾大家好,今天非常荣幸我可以代表小米在这里做一个报告,这个报告是关于产品,关于用户,关于机器学习,关于人工智能。
6年前我们创办小米的时候,我们有一个愿景,我们是希望可以让每个人都可以享受可以的乐趣,什么意思呢?其实小米从创办到今天我们的核心无非就是希望可以作出越来越好用的产品,越来越智能的产品,然后把这些产品带给越来越多的用户,来去满足他们的一些真实的核心的需求,而且可以改变他们的生活。
也可以这么理解,6年前我们创办小米就是因为当时我们觉得有很多我们生活上用的产品还不够智能,所以我们有这样一个使命我们希望可以去把它做得更符合我们的要求,我们有这个想法。
今天很多专家已经提到了人工智能如果要落地,它有好几个前提,他们反复的讲到机器学习或者是人工智能最大的一个基础就是大数据,对吗,我非常同意,但是从我们在做小米这几年实践的经验我会把它再往下来推一层,我认为人工智能是大数据,但是大数据的基础应该是产品加上海量的用户去使用这些产品真实产生出来的大数据,所以我认为在三个前提里面我们应该从产品开始分享。
2 亿 MIUI 用户
所以大部分朋友对小米最大的印象就是我们是从小米手机开始做的,我们从6年前开始创业,第一个智能产品就是手机,为什么我们当时做手机,原因很简单,就是我们这一群老男人,我们有时候开玩笑说小米就是一群老男人的创业公司,我们是一群发烧友,我们用了很多当时号称的智能手机,但是其实每一个手机都有很多的体验上面的空间,看你怎么样定义智能,虽然我们都叫智能手机,但是坦白讲它不智能。
我们6年前的第一个产品就是做手机,我们从2011年推出第一部手机到今天其实做了两个产品线,一个是小米手机,一个是红米手机,我们做的这个手机是移动互联网手机,我们怎么评价它是不是一个高活跃度的产品,我们已经有超过2个亿的 MIUI 用户,但是他们到底有多活跃?这个是MIUI系统超过1000万的用户已经有8个了,日活跃超过100万的用户已经有17个了,你会看见他们平常在使用手机里面的各种各样的系统的应用。
他们的活跃对我们来讲有两个意义:第一是我们如何通过做产品跟用户的反馈里面得到他们真正需求。第二个是只有他们非常活跃使用这个产品的时候我们才可以获取更多的数据,反过来把这个数据发挥起来,所以你看里面的比如说浏览器,比如说音乐,比如说视频播放器,智能家庭,甚至是天气、阅读等等,其实说明了用户每天都在高度使用的产品是什么功能。
IOT的两个问题
我们在三年前进入了更多的用户生活上使用的一些功能。我们第一个进入的就是手环,当时出来之后变成了手机的最佳拍档,在用户的移动生活上面我们进一步的对他的生活有进一步的了解。
我们做了小米电视和盒子,因为在家庭里面电视还有娱乐的视频、电影这些需求是非常非常刚性的,所以我们在看了一圈当时的传统电视我们认为同样的理由,我们认为里面的用户体验非常非常不智能,里面有巨大的提升空间所以我们决定继续认认真真的做电视和盒子。
我们两年前也进入了网络设备,一系列的路由器,在高配的路由器里面有1T到6T不等的硬盘,其实它是一个数据中心。
接着我们通过生态圈的方式做了更多的用户生活上需要的产品,比如说智能净水器,灯、摄像头、智能插座等等等等,我们在做这个的时候其实是IOT这个浪潮的爆发,其实我们在进入这个领域的时候我们要克服两个核心的问题。
第一个问题是用户当时觉得他们传统的硬件产品其实没有必要要智能化。更简单的说法,是这些产品没有必要去联网。
第二个就是当时的所谓的智能硬件其实非常不智能,你要把它们弄好,再使用,其实比传统的更难用,我们当时做了两个事情去突破这两个问题。
第一个事情:在我们进入这个领域的时候,如果你要你的智能硬件可以联网的话你需要一个wifi,加上一个CPU,再加上一些memory,如果你是一个硬件开发商你要加这样一个的话是60块人民币,你听起来这个数字不是很高,但是我告诉你如果一个传统的电灯的售价也就是十几二十块,一个传统的插座也就是几十块的时候,你再加上一个60块的Wifi基本上就把它一个一百多块的产品,这个基本上在市场卖不出去,卖不出去后续的一系列的联网、智能化基本上是不可能,所以我们进入到今天,我们已经一步步把wifi从当时的60块做到今年的10块,你说什么意思,你要把它做到10块有什么核心目标。
其实我们的核心目标很简单就是如何做到你只要做一个硬件产品的你想都不用想就影响把这个wifi加上去,你想都不用想就是让你这个产品联网,甚至你不知道为什么要联网,为什么需要做这个智能功能的话您把这个加上去它才是真正智能化的,当我们做完这些,包括电饭煲都是可以联网的,全部的电灯、摄像头等等等等。
第二个事情:两三年前IOT爆发的时候大家都觉得用户的使用度不高,那是因为当时大家没有把应用型做好,我们可以做到这样的一个使用体验,你买了一个净化器也好,摄像头也好,回去一开箱你不需要看说明书,你只需要把它往电上一插,你的手机就有一个说明,你允许不允许把它装到你的家庭智能网络,如果你选是的话,它就会自动的联入你家里的网络,所以我们当时突破这个的时候,我们发现我们的智能硬件不单指它的联网度非常非常高,真的是接近全量,更关键的是它的活跃度也是非常非常高。
3700 万智能硬件和背后的数据工厂
到今天,不算手机,全部的智能设备的出货量已经超过了3700万,这个数字未来有可能是远大过智能手机,我们每个人可能是用一两个手机,但是我们家里面物理的产品加起来是十几二十个,只是今天没有真的被智能化,真的被联网。
这个是你们关心的,当我们有这么一系列的硬件产品他们全部都联网,加上真的是可以产生各种各样的数据之后呢,我们才有机会建立一个真正的大数据,每天全部的这些刚才我讲过的产品是200个TB,我们也为这个数据量付出了巨大的成本,但是我觉得这个是最核心的基础。我们从产品上进去的第一天我们就知道数据多么重要,我们通过Wifi把它落地才有可能产生高质量的大数据。
这个其实就是刚才我给你们描绘的,我们全线的产品或者是业务他们的大数据基本上汇总到一个数据工厂,我特别认同刚才杨强教授讲的一个点,你光有大数据,其实有可能不但只是没有价值,因为它给你造成的成本是海量的,如果你存了大量的数据你不能够发挥价值的话,还不如不存,所以在数据的处理上面我们首先要清晰掉,挖掘,如何用这个数据反过来训练我们的算法,训练各种各样的产品,让它可以做到真正智能化。
建立用户画像
当你有海量的数据之后我们意识到,其实你必须要以人为核心,我们花了过去两年的时间就是在建立一个用户画像,当然不同的公司有不同的用户画像,在小米我们对用户画像的定义其实就是围绕这个用户,他不管是在使用手机移动上面也好,或者是在看电视,或者是在家庭使用各种各样的智能硬件,如何可以充分的把这个用户的需求还有他的习惯,怎么样可以把他的特征建立出来,只有当你比这个用户更加了解和需求的话我们才可以为他提供更多的智能服务。
在这个画像里面包含了云服务,MUI里面的播放器,视频播放器等等,他们产生的特征真的是海量的,举个例子,如果你使用小米多看阅读的应用的话,我本身是一个很热爱读书的人,我认为我的读书软件真的要很深刻的知道我读书的特征它才可以很好的服务我,我们必须知道这个用户喜欢哪一类数,他们喜欢哪一类作者,这些作者的哪一部分的书对他们有感觉的,他们是喜欢在什么时候读书,是在移动当中,还是在排队,或者是在一些碎片时间去使用,我觉得只有你去到这样一个画像的颗粒度的时候我们才有可能为他提供智能度,如果你只是知道的非常表象,他每天知道阅读多少次,他已经读过什么书,我觉得你只可以做一些很基础的而且是很粗颗粒的推荐,我认为这个不可以超过用户对智能手机的期望值。
我们今天已经有大概一千个用户特征,就是我对我的大数据团队我跟他们说为什么这个是一千,而不是一万,因为我们还没有把它更多的特征整合起来。
我做细说一个有趣的事情,我们在建立用户画像的时候你会发现高质量的数据会被计算出来,你如果让一个用户去填写他全部的特征的话,这个是可以但是没有用户愿意配合你做这样的事情,怎么样可以在他已经有的部分的特征里面我们可以通过机器学习到底这个用户是男的还是女的,他的年龄是什么,如果可以保证在一个高的准确度,有时候要牺牲到我们的覆盖率,如果我们不知道计算的精准度的话,我们甚至放弃这个特征,这个还是回应刚才所说的高质量的大数据,我们可以通过足够的大数据判断用户的性别—如果用手机的话他是完全不会告诉他你是 男还是女的,但是我们的准确率可以接近90%。
通过用户画像打击黄牛
用户的真实性,可能大部分行业的朋友都没有这个烦恼,但是小米每天都是跟黄牛在对抗的,大家骂我们说是饥饿营销,是因为我们的产能跟不上,当产能跟不上的时候,我们的小米网上每天有大量的黄牛,他们模仿真的人各种技术手段来在网上抢我们的产品。我甚至怀疑他们有可能在使用深度学习模拟真人,把这个黄牛的工作做得极致。我们在半年前实验了一把,我们如何用足够的特征把一个用户的真实性判断出来。传统黄牛可以通过你的一个或者是两个漏洞,让你以为他是一个真实的用户,其实你是防止不了他在某一些特征里面作弊,但是你会发现他不可能在30个或者是100个特征里面作弊,整个成本太高了,当我们使用了1000个用户特征之后,我们发现我们马上把黄牛打到下风了。
除了我们对用户越来越了解之外,我们其实也要对他们关注的内容越来越了解,所以在资源池里面我们把他们的内容整理,在里面提取足够的特征之后我们可以把用户的画像一起放进去我们的积极学习里面,才可以作出全方位的一些推荐。
大家听到我讲到这里其实可以知道,要落实一个人工智能或者是机器学习真的不容易,我讲了那么长的篇幅我们才可以落地产品,才有可能产生真实的大数据。这些大数据之后如何可以被使用,真的把它智能化,这个对于我们这几年在人工智能还有机器学习上面,这个行业取得的一些弯道(意为“拐点”)。
产品开发新常态
我们再来解剖这个图,这个循环是未来我们看到的一个新常态,不仅是在过去人们在人工智能领域的使用方式,应该成为一个新常态。只要你有一个产品,只要你的产品智能度,会大幅度提升他的用户体验;只要你通过这个产品产生大数据的话,我认为这个会变成一个新的常态。
首先你必须要有一个好的产品,你的产品必须要有足够的用户选择使用,然后你才有可能开始产生大数据,这个大数据才可以通过机器学习反过去,把里面智能的功能做得越来越职能,这个智能会提高这个产品的体验,这个产品的体验,可以让更多的用户去使用这个产品,或者是现有的用户在里面停留的时间会越来越高活跃,形成一个正循环,他的学习过程会把这个产品做得,未来一步一步的变得越来越智能。
我为了说明这个规律我就选了两个产品,这两个产品你之前可能不会想到有可能会使用人工智能。
第一个IOT出来的时候每个公司都想做智能灯。但是甚至到今天为止都没有一个灯是真的符合你的需求:在你想它亮的时候它自动亮,不想它亮的时候会自动关上。这么简单的一个需求,你会发现如果做出来真的很难。我们过去看智能灯的做法,如果你想把它智能化的话,你会用很多 Rule-Base(基于规则) 的方式,说只要这个用户一回家,只要是晚上你就把这个灯打开,只要他一离开家里一,这个门一打开有一个传感器,这个灯就会灭,你会发现,如果把它做好,需要10、20个 Rule (规则)才可以把它做得靠谱一点。
这不就是机器学习要解决的问题吗?你可以想象,机器学习就好像在我家里面的摄像头一样,它只要看见我买了这个灯回来,我开始使用这个灯,使用了2个月,它每天就在那里看着我在什么时候会打开灯,或者是什么时候关灯。是不是晚上回来,家人已经睡了,就不要打开灯,以免影响到家人;是不是有时候你出去倒垃圾你马上就回来的话,你不要把那个灯又关又开了等等。其实机器只要给它足够的数据,它完全可以搭配三、四十个不同的“特征”,加上 Wi-Fi 连接的状态,加上时间状态,加上你自己在家里走来走去的状态,它就可以真的做一个智能的灯。这个是第一个例子。
(第二个例子是)手环,我们投资的生态公司做的手环,它是比较准确。但是其实要把这个算法做出来里面真的是很困难的,去拍脑袋把这个算法做出来它才知道你在走路,这个动作是走路的动作。如果它想把这个动作做得更精准,或者是有不同的运动的方式,比如说跑步、跳绳、爬山、骑自行车,每个都要拍脑袋去做这个算法的话,我觉得这个是可以反人类的事情。我们可不可以最开始让它做基础的功能,因为通过大数据,我们知道他是在爬山、在跳绳、在骑自行车,我们就可以判断他那一类的动作就是在爬山,在跳绳、在跑步。
你会发现好像我们做的某一个产品,都需要有这样一个规律,才有可能达到真正的智能化。所以这个刚才已经提到过了,我们对数据的处理能力,哪怕是把一个灯做好你要处理甚至是上百个特征。您会发现,你要处理的海量的数据是巨大的。这个数据爆发的时候,我们在这上面的投入也会越来越多。如何把这个数据使用好,当你有了这个数据之后,如果可以把它开花结果,真的通过深度学习把它落地到我们每个业务里面。
你看见小米的业务,其实跟你们想象的人工智能的理解,可能不完全一样。它们都是很传统的互联网业务,比如说搜索、推荐、金融、广告、云相册、智能助手,其实它们跟你们想象的 AI 不见得是完全一样的,但是他们都可以得益于深度学习。这个就是,我觉得人工智能和深度学习这几年的突破,对我们这个行业的贡献。可能,远远不止大家理解的语音、图象处理。有可能是在每一个需要算法的应用和产品里面,都能用得上。这才是机器学习对我们最大的意义。它完全改变了,我们一个工程师如何做产品的方法论。
从人机交互到内容推荐
但是,确实,深度学习对视觉还有语言上面的突破,真的是让我们有机会,可以做一些新的人机交互。在人机交互上面,真的可以把人工智能做到无处不在。之前的张宏江博士帮我们打了很多广告,我们在人脸识别,学术界研发了很多才有了这个成果。我们去年把它用在面孔相册上面,效果真的很好。用户有这样的口碑分享的话,这就是我们做小米的原因,用智能化感动到每个用户。在这个面孔相册推出之后,到今天这个相册还有使用它的功能的,已经达到了总用户的1.5亿。我们的照片的存储量已经是500亿以上,每天上传的照片是1.5亿,这个量是海量的,我们可以通过新的产品把这些量给发挥出来了。
自然语言处理。过去大家一想到这个,会想到你是不是要做聊天机器人,或者是语音识别,大家对这个的理解有误区。我们做这个两年时间。我们为什么要做这个,我们是要把我们各个应用里面的内容推荐和搜索,可以做得更极致。其实跟一个搜索公司里面,为什么要用深度学习,来把它的搜索结果优化,是同一个道理。我们只有知道了用户的真正的意图,知道了里面的内容的不同的特征,可以分析到文本的特征的时候,才有可能把这些应用做的真的是智能,所以我们在小米视频的信息流里面大量使用了机器学习。只要某一个业务使用了这个效果好的话,它就可以很快的遍地开花。
他们的用户画像,又回到我们核心的用户画像里面,把它做得越来越大。我们游戏的信息流都是基于机器学习的。我们的内容推荐,我就不一一的介绍了。全局搜索,那个规模已经越来越高,我们把机器学习和深度学习使用了之后,它的转化率和日活跃度会越来越高。这就是为什么互联网公司非常坚定的投入深度学习,因为它的效果是立竿见影。甚至是我们的电视都有一个按键,一按就可以说,帮我找最新的《奔跑吧兄弟》,直接播放,还有我们智能家庭里面的智能摄像头。
总结:把人工智能带入生活
其实在过去的6年,我们很有幸的零距离的看见了几个技术和产品的弯道(意为“拐点”)、爆发。从一开始的移动互联网的爆发,基本上带动了有可能每个用户使用了他们第一个智能设备的手机,再到两年前的IOT的爆发。直到现在的人工智能,我觉得这几个爆发和弯道(意为“拐点”),真的是我们整个行业的幸运。
但是我觉得那个目标依然是很清晰的,而且从来没有改变过,就是我们有那么多的技术的弯道(意为“拐点”),到最后其实我们的目标,依然是如何可以把产品,用户真的需要的产品里面的功能做得越来越好用,然后这些功能至少对于小米来讲,我们的目标是希望把这些最前沿的功能带入到千家万户,而不止是高大上的用户可以用到。
我们希望跟行业里面的科学家、专家,还有工业界的合作伙伴一起,看看在我们这一代里面是不是可以落地人工智能,把人工智能真的是带入到家庭的每个角落,无处不在。我在我的客厅里面不用摇控器就可以控制电视,在我的洗手间里面就直接跟我智能音响,直接告诉它现在要去哪,然后它自动下单,或者是我的冰箱会直接的讲我没有鸡蛋了,然后它就可以下单。这是第一步。第二步,在我没有说时候,它会自动的预见,做推荐,或者其他智能服务,如果是能做到,人工智能是真的做到了生活上面。
我担心的不是奇点(Singularity),不是人工智能如何统治这个世界。我担心的是,如何在我们这一代,工业届和科学界一起,利用我们的技术把人工智能带到我们的生活。(完)
雷锋网原创文章,未经授权禁止转载。详情见转载须知。