• 欢迎访问数智,大数据学习

【ML第八节】:机器学习之线性回归算法

机器学习 Raybra_Wei 2年前 (2018-09-06) 538次浏览 0个评论 扫描二维码

前面主要是关于分类问题的算法描述,下面讨论一些关于回归问题的算法;

回归来历:最初的回归提出是由 Glton 发明的,它根据上一代豌豆种子的尺寸预测出了下一代种子的尺寸。他在大量对象上应用了回归分析,甚至包括人的身高,他注意到,如果双亲的高度比平均高度高,他们的子女也倾向于比平均高度高,但尚不及双亲。孩子的高度向着平均高度回退(回 归 )。在多项研究上都注意到这个现象,所以尽管这个英文单词跟数值预测没有任何关系,但这种研究方法仍被称作回归。

优点:结果易于理解,计算上不复杂。

缺点:对非线性数据拟和不好

适用数据类型:数值型和标称型数据

原理:利用样本(已知数据)产生拟和方程,从而对未知数据进行预测。它需要学习到一个映射 f:x->y

用途:连续值变量预测、判别合理性

分类:一元线性模型、多元线性模型(包含两个以上的自变量)、广义线性模型     

难点:选定变量(多元)、避免多重共线性(某些变量可以由其他变量推出)、观察拟和方程避免过度拟和、检验模型是否合理、降维

2.6.1 一元线性回归模型

若 X 和 Y 之间存在着较强的相关关系、则我们有  ,如果 alpha 和 beta 的值知道,则给出相应的 X 值,我们可以根据上式得到相应的 Y 的预测值。

【ML 第八节】:机器学习之线性回归算法

方程中的参数:截距项 alpha、斜率 beta、当然也可以加入误差项 。那么如何求得最好的参数呢?我们可以使用平方误差和来衡量预测值与真实值的差距。平方误差是指真实值与预测值的差的平方:【ML 第八节】:机器学习之线性回归算法

通过寻找合适的参数,使得平方误差和最小【ML 第八节】:机器学习之线性回归算法

,图解如图:

【ML 第八节】:机器学习之线性回归算法

那么确定参数的具体方法是什么呢?常用的方法是最小二乘法:

【ML 第八节】:机器学习之线性回归算法

通过对 alpha 与 beta 求偏导并令其等于 0,就可以得到 alpha 和 beta 的值:

【ML 第八节】:机器学习之线性回归算法

算法简单实现:

2.6.2 多元线性回归模型

   当 Y 值的影响因素不唯一的时候,采用多元线性回归模型:

【ML 第八节】:机器学习之线性回归算法

这里可以用矩阵表示;

参数估计类似一元线性回归;那么在这里我们需要找到一个最好的参数【ML 第八节】:机器学习之线性回归算法

如何去寻找这些最好的参数呢?首先我们假设找到了一个映射函数 ;我们定义了一个损失函数如下:

【ML 第八节】:机器学习之线性回归算法

参数解释:这里的 m 代表总的数据个数,前面的 2 只是为了在后面的计算方便引入的,因此将他设置为其他值也可以。后面括号内的表达式类似于平方误差。

【ML 第八节】:机器学习之线性回归算法

通过不断的纠正 theta 的的值,使得红叉与给定的线性直线距离最小。也就是需要让我们的损失函数最小。这里就需要用到梯度下降的方法:先看一个参数的情况:【ML 第八节】:机器学习之线性回归算法

这个过程描述了如何去寻找最小的值。按照惯例来说,梯度下降就如同下山,每次我们从山上跨出一小步,然后环顾四周找到下山最快的方向,迈出第二步,直到我们下到比较低的位置。上面的 alpha 参数的意思是学习率,他代表着我们每次需要迈出步子的大小,这个参数不能太大也不能太小,否则我们会在山上一直跳动或者花很长的时间下山。

一个参数的看完了,我们看一下两个参数的梯度下降:

【ML 第八节】:机器学习之线性回归算法

 

【ML 第八节】:机器学习之线性回归算法

两个参数的梯度下降还是如同一个参数,不过现在我们多了一个方向。因为梯度的含义就是一个函数各个参数求偏导数的向量。推广到 n 个参数,也一样:

【ML 第八节】:机器学习之线性回归算法

回归与过拟合:

【ML 第八节】:机器学习之线性回归算法

在上图中,我们发现本来某一个数据集的理想模型用两个个参数就可大致的拟和数据的变化趋势,但是由于我们不断的加入参数,最后发现,我们产生的拟和曲线竟然可以完全的经过数据集中的每一个点。那么这条拟和曲线是好还是坏了?它虽然完美的拟和了给出的数据,但是它丧失了一般性,从而导致对新给的的待预测样本的预测效果非常差,这种现象就称为过拟合现象。图 1 就是一种欠拟合现象,欠拟合顾名思义就是对训练数据的拟合程度不够好,训练误差大

回归与正则化:正则化引入的原因是上述的过拟合现象,过拟合现象的原因是我们不断的去最小化我们的损失函数,但是在最小化损失函数的过程中,我们会将高次项的系数变大来使得曲线足够弯曲去拟和已有的数据。基于此就有了正则化原则:

【ML 第八节】:机器学习之线性回归算法

原本我们需要计算损失函数的最小函数的最小值,那么我们加入了 theta 参数限制后,损失函数就不能无限制的去拟和我们所给的数据,从而很好的解决了过拟合问题。

 


数智 Lab , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:【ML 第八节】:机器学习之线性回归算法
喜欢 (2)
[]
分享 (0)
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址