线性回归相关系数(线性回归方程r

注意:文本中有很多公式,转换成图片后才能正常显示。请原谅我读书不好。

本文由[简体可用]原创,转载请联系我,谢谢!

目录

1.什么是回归?

2.单变量线性回归

3.损失函数

4.最小二乘估计

5.摘要

00-1010当我们学习一门新课程,接触到一个新的专业时,我们总是对这个领域的专有名词感到困惑,甚至在看完解释后,我们仍然无法理解它们的含义。在一起学习机器学习的过程中,我会尽量讲解‘人话’中的相关名词,减少学习的‘痛苦’。

比如今天要学的线性‘回归’,这个回归和我们平时说的‘回归祖国’的回归是两个意思完全不同的词,里面有‘后推’的意思。当我们学习的时候,我们必须抛弃我们现有的知识,这样我们才能对新知识有更高的接受度。

那么,这次回归到底意味着什么?其实回归算法是相对于分类算法而言的,它与我们要预测的目标变量Y的值类型有关。如果对客观变量Y进行分类,如预测用户性别(男、女),预测月季花颜色(红、白、黄等…………….如果y是连续变量,比如预测用户的收入(4,000,20,000,100,000.),预测员工的通勤距离(500米、1公里、20,000英里.)和预测肺癌的概率(1%、50%、99%.),我们需要使用回归模型。

聪明的你肯定会发现,有时候分类问题也可以转化为回归问题,比如刚才引用的肺癌预测。我们可以先用回归模型预测肺癌的概率,然后给出一个阈值,比如50%。概率值低于50%的人被归类为无肺癌,超过50%的人被认为患有肺癌。

逻辑回归是预测这类分类问题最常用的方法,后面我们会讲到。

1. 什么是回归

线性回归可以说是一种用法非常简单、用途广泛、意义容易理解的算法,非常适合作为机器学习的入门算法。我们上中学的时候,都学过二元线性方程。我们用Y作为因变量,用X作为自变量,得到方程:

当我们只用一个X来预测Y时,就是线性回归,即我们在寻找一条直线来拟合数据。例如,我有一个由一组数据绘制的散点图。横坐标代表广告投资额,纵坐标代表销售额。线性回归就是找到一条直线,让这条直线尽可能地拟合图表中的数据点。

我们在这里得到的拟合方程是y=0.0512x 7.1884。这时,当我们获得新的广告投入量时,我们可以用这个方程来预测大致的销量。

2.一元线性回归

既然散点是用直线拟合的,为什么最后得到的直线y=0.0512x 7.1884而不是下图中y=0.0624x 5?这两条线似乎符合这些数据。毕竟数据并不是真的落在一条直线上,而是围绕直线分布的,所以我们需要找到一个标准来评价哪条直线最‘合适’。

让我们从残留物开始。说白了,残差就是实际值和预测值的差值(也可以理解为差距和距离),用公式表示:

公式是:

25826d18e0884671a0?from=pc”>

这个公式是残差平方和,也叫均方误差(MSE),还叫欧氏距离(用于计算点间的距离,记住这个名称,以后我们会经常提到),在机器学习中它是回归问题中最常用的损失函数。一个公式好多个名称,刚接触都会觉得晕,但慢慢熟悉之后就好了。

所以,现在我们知道了损失函数是衡量回归模型误差的函数,也就是我们要的”直线”的评价标准。这个函数的值越小,说明直线越能拟合我们的数据。

4.最小二乘估计

当给出两条确定的线,如y = 0.0512x + 7.1884,y = 0.0624x + 5时,我们知道怎么评价这两个中哪一个更好,即用损失函数评价。那么我们试试倒推一下?

————————我是头疼的分割线—————————–

以下是我们最头疼的数据公式推导,我尽量对每个公式作解释说明。

我们再来看一下残差平方和的公式:

这类函数在数学中叫做凸函数,意思就是处处连续可导且有最小值。

5.小结

线性回归的定义,是利用最小二乘函数对一个或多个自变量之间关系进行建模的方法。现在我们看这个定义,是不是觉得不难理解了呢?

以上举的例子是一维的例子(x只有一个),如果有两个特征,就是二元线性回归,要拟合的就是二维空间中的一个平面。如果有多个特征,那就是多元线性回归:

最后再提醒一点,做线性回归,不要忘了前提假设是y和x呈线性关系,如果两者不是线性关系,就要选用其他的模型啦。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注