雷锋网(公众号:雷锋网) AI 研习社按:人工智能的发展不仅是给社会带来了巨大的变化与进步,同样也给我们每一个莘莘学子的人生带来了重大的机遇与挑战。本文的分享嘉宾就是一位紧跟随时代浪潮,投身 AI 革命的践行者。
在近期雷锋网 AI 研习社举办的线上公开课上,来自新加坡国立大学电子及计算机工程系的霍华德博士分享了他的在 NLP 学术研究上的一些体验与心得。他本人的求学经历非常传奇,在本科,硕士,博士阶段分别读了三个不同的专业,现在腾讯就职。
霍华德,新加坡国立大学电子及计算机工程博士,现为腾讯自然语言处理 算法工程师。学过材料,打过铁,下过车间,烧过炉子,后转行人工智能,有着丰富的转行经验。
以下是嘉宾的分享内容:
自然语言处理(NLP)都有哪些用处?
简单来说,NLP 结合大数据、机器学习、深度学习进行词法分析,句法分析,语义分析等功能,主要用于搜索引擎和推荐系统,像包括用户画像,计算智能推荐广告都会用到。现在计算机视觉技术也在和 NLP 有着更多的结合,比如最近很火的自动驾驶。另外语音识别本身就有很多的 NLP 问题,不仅仅是简单的识别,还包括单词的边界界定,词义的消歧,句法的模糊性等问题。
对于 NLP 技术,目前市场需求非常稳固,而且会随着 AI 的进展不断增张。目前 NLP 技术发展面临的挑战之一是语言的歧义性,比如下面这张图片上的例子。
接下来给大家分享一些 NLP 中比较有意思的问题。也可以说是 AI 领域的比较有趣的问题。
高中数学有一个著名的概率问题,「一枚硬币连续投了五次都是正面,那么第六次投还是正面的概率是多少?」机智的高中生会想,这骗得了我?这是独立重复实验,概率还是 0.5!
可如果一枚硬币连续投了一百次都是正面呢?一亿次都是正面呢?是否还要坚信出现正面的概率是 0.5?这个硬币会不会被人动了手脚,就只有正面呢?
当大量的事实摆在我们面前,随着数据越来越多,人应该越来越相信这个硬币有问题,越来越不相信硬币的概率是 0.5,这才是最自然而然的感觉,这才是动态的看待问题,而不是机械僵化的看待问题,而这背后就是贝叶斯思想。
高中老师告诉我们概率就是频率;而贝叶斯告诉我们,概率其实有点像人对事物的信心。随着证据越来越多,我们对事物的信心越来越强,也可以称作概率。
直观理解贝叶斯公式
好多同学都说不理解贝叶斯公式,接下来举个例子帮助大家直观的理解贝叶斯公式。
先来一个问题:一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少?
这里需要用到贝叶斯公式,贝叶斯公式一点也不神秘,首先我们要是觉得两个东西之间有关联,那么他们就有联合概率 ,联合概率可以用链式法则表示 ,这个是大家都学过的条件概率,A和B同时发生的概率是B发生的概率乘以B发生下A的条件概率,反过来一样成立,所以有:
两边同时除以 ,得:
这就是贝叶斯公式。贝叶斯公式的范围非常广泛,只要两个东西有关联,能写出联合概率,就可以用贝叶斯公式。
机器有良好和故障两种状态,用A表示。产品有合格和不合格两种状态,用B表示。直接套用公式算:
的概率等于:
所以:
从投硬币到高斯分布(正态分布)
我们都知道人的身高是遵从高斯分布的。假设有 340 个因素影响你的身高,每个因素都有 0.5 的概率让你长高1cm,如:
你打不打篮球
妈妈的身高
爸爸的身高
爱不爱吃肉
喝不喝牛奶
这些因素里有的对身高产生不产生影响,就如投硬币投到了0,有的让你身高长高1cm,如投硬币投到了正面。而你最终的身高就是这 340 投硬币累加的结果。如果你做10万次这样的实验,你会得到下面这样图,是不是发现身高分布变成了正态分布。有些人运气好,多投了几次正面,就多长了几厘米,长到了 180cm;有的人运气差些,少投了几次正面,就只有 160。但大多数人,运气都差不多所以都在 170 左右~这也是投硬币实验的期望 (170=340*0.5)。同时,因为投硬币概率的影响,运气超级好和运气超级差的都不多,所以高于 200cm 和低于 140cm 的男生都不多。
这背后是中心极限定律:「大量相互独立随机变量的均值都讲收敛于正态分布」,其中有三要素:独立,随机,相加。
幸运的是,人生不都是独立重复实验,有些因素是我们可以控制的,可以努力的,如多喝牛奶,多打篮球,多蹦多跳,这样就相当于提高了某几次投硬币得到正面的概率,让自己多长高一些。
从投硬币到泊松分布
日常生活中,大量事件是有固定频率的,如:某个医院平均每小时出生4个小婴儿;某个王者荣耀服务器平均每秒钟接到 500 次访问请求;某个汽车站台的候客人数等等... 想象你在妇产科工作,你的职责就是记录婴儿的出生情况,你知道平均每小时你会有4个婴儿出生 。
泊松分布的产生
每十分钟记录一次
把一小时分为6段,每十分钟记录一次,这10分钟里有婴儿出生,就记录1,没有就记录0。这样每个10分钟里有婴儿出生的概率就是P=4/6 ,你每小时会记录6次,有 k 个婴儿出生的概率可以写成:
如图所示:
每一分钟记录一次
每一秒钟记录一次
从上面三张图可以看出,每次的记录都差不多。之后可以每毫秒记录一次,每微秒记录一次,每纳秒记录一次,但是这个概率分布的形状都不会怎么变了,这时候就得到了泊松分布。
用贝叶斯方法挑西瓜
公式左边是西瓜「是好瓜」的逻辑发生比,又称作 logit,逻辑发生比大于 0 就说明是好瓜的概率较大。
最后发现等式右边变成了各个特征的求和。特征值越大,说明这个特征对西瓜「是好瓜」的影响越大,相应的说明这个特征是一个显著特征。而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。
朴素贝叶斯分类
以上就是本次分享的全部内容,视频回放链接:http://www.mooc.ai/open/course/447
雷锋网温馨提示:关注公众号「AI 研习社」,每周都有免费公开课直播。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。