机器学习之线性回归(一)

 首先我们聊一聊什么是线性回归.

在机器学习里,什么是线性回归呢,其实很好理解,简单一点讲,输出的预测值是连续值,就是回归,那什么是连续值呢,好比说我们预测一个房价,房价可能是120.3万,也有可能是120.45万,还有可能是120.554万,这就是连续值,那如果你告诉我房子120万,面积100平,让我预测有几个房间,房间可能为12345个,顶天5个呗,这就是离散值,叫做分类,因为不可能有2.2个房间吧。所以说,在监督学习的情况下,你只要记住,预测值是连续值就是回归,预测值是离散值就是分类。那线性呢,就是通过属性的线性组合来进行预测,形式是这样的:

f(x)=w1x1+ w2x2+…+ wnxn+b

向量形式是这样的:

                   f(x)=WTX+b   

那线性回归就是:

    试图学得这个函数f(x)=wTx+b使得f(x)趋近于yi,  yi为真实标签          

那么要怎样确定wb呢,关键就在于f(x)y之间的差距,我们想要预测的越准就代表着希望f(x)y越接近,这样我们就引入了‘均方误差’这个概念,

即:

image.png

这个均方误差有着很好的几何意义,它对应着我们常用的欧几里得距离,欧氏距离加和其实就是用来量化预测结果和真实结果的误差的一个函数。在机器学习中称它为损失函数(说白了就是计算误差的函数)。那有了这个函数,我们就相当于有了一个评判标准,当这个函数的值越小,就越说明我们找到的这条直线越能拟合我们的数据。所以说啊,线性回归无非就是通过这个损失函数做为评判标准来找出一条直线。

差不多画图也就是这样地的:

每一条小竖线就是预测值跟真实值的差距。

所以我们通过求最小的他:image.png,来确定wb就可以得到最好得函数f(x),然后再有新的数据,就可以扔进函数里面做预测啦。

 

至于怎么求呢,下一章在讲吧!!!今天周五要约酒去了


(完)