Python机器学习简单线性回归,视频讨论了线性回归的概念和应用。线性回归是一种用于描述两个或多个变量之间关系的近似线性模型。在简单线性回归中,只有一个自变量,而多元线性回归中有多个自变量。线性回归的目标是找到最佳拟合直线,以预测因变量的值。通过计算斜率和截距,可以得到线性回归模型的参数。线性回归可以应用于各种领域,如销售预测、心理学、房价预测等。线性回归是一种简单且容易理解的回归方法,适用于很多实际问题。


在这个视频中,我们将讨论线性回归。要理解线性回归中的主题,您不需要了解任何线性代数。这个高层次的介绍将为您提供关于线性回归,以便能够在自己的问题上有效地使用它。让我们开始吧。

让我们来看看这个数据集。这与不同汽车的二氧化碳排放有关。它包括发动机尺寸、气缸、燃油消耗量和各种车型的二氧化碳排放。问题是,给定这个数据集,我们能否使用另一个字段(如发动机尺寸)来预测汽车的二氧化碳排放量?

很简单,是的。我们可以使用线性回归来预测连续值如使用其他变量的二氧化碳排放。线性回归是线性模型的近似用于描述两个或多个变量之间的关系。

在简单线性回归中,有两个变量,因变量和自变量。线性回归中的关键点我们的从属值应该是连续的,不能是离散的值。然而,自变量可以根据分类或连续测量标尺。

有两种类型的线性回归模型。它们是简单回归和多元回归。简单线性回归是指使用一个自变量时估计因变量。例如,使用发动机尺寸变量预测二氧化碳排放。当存在多个自变量时,该过程称为多元线性回归,例如,使用发动机尺寸和汽车气缸预测二氧化碳排放。在这个视频中,我们的重点是简单的线性回归。

现在让我们看看线性回归是如何工作的。好的,让我们再看看我们的数据集。为了理解线性回归,我们可以在这里绘制变量。我们将发动机尺寸显示为独立变量,并且排放量作为我们想要预测的目标值。散点图清楚地显示了变量之间的关系,其中一个变量解释或可能导致另一个变量的变化。此外,它还表明这些变量是线性相关的。

使用线性回归,可以通过数据拟合直线。例如,随着发动机尺寸的增加,排放也会增加。使用线性回归,可以对这些变量的关系进行建模。一个好的模型可以用来预测每辆车的近似排放量。

我们现在如何使用这条线进行预测?让我们假设这条线很好地拟合了数据。我们可以用它来预测一辆未知汽车的排放量。例如,对于发动机尺寸为2.4的样车,你可以发现发射是214。

现在,让我们讨论一下拟合线实际上是什么。我们要预测目标值y。在我们的例子中,使用由x1表示的自变量引擎大小。拟合线传统上表示为多项式。在一个简单的回归问题中,单个x,模型的形式是θ0加上θ1×1。在该等式中,y hat是预测值的因变量。x1是自变量。θ0和θ1是我们必须调整的线的参数。Theta 1被称为斜坡或拟合线和θ0的梯度称为截距。θ0和θ1也称为线性方程的系数。

你可以把这个方程解释为x1的函数,或依赖于x1的y hat。你将如何在这些点之间画一条线?您如何确定哪条线最适合?线性回归估计直线的系数。这意味着我们必须计算θ0和θ1来找到最适合数据的线。这条线将最好地估计未知数据点的发射。

让我们看看如何找到这条线,或者更准确地说,如何调整参数,使直线最适合数据。暂时假设我们已经找到了数据的最佳拟合线。现在,让我们遍历所有点,并检查它们与这条线对齐的程度。这里的最佳匹配意味着,如果我们有,例如,发动机尺寸x1=5.4和实际二氧化碳=250,其二氧化碳的预测应非常接近实际值,根据历史数据,y=250。但如果我们使用拟合线,或者更好地说使用具有已知参数的多项式来预测二氧化碳排放,它将返回y帽子=340。现在,如果您将汽车排放的实际值与我们已经用我们的模型进行了预测,你会发现我们有90个单位的误差。这意味着我们的预测线不准确。该误差也称为残余误差。所以我们可以说误差是与数据点的距离拟合回归线。

所有剩余误差的平均值显示了直线的差与整个数据集相匹配。在数学上,它可以由等式均方误差表示,如MSE所示。我们的目标是找到我们是否应该随意移动线路每次计算MSE值并选择最小值?不是真的。实际上,我们有两个选择。选项一,我们可以使用数学方法,或者选项二,我们可以使用优化方法。

让我们看看如何容易地使用数学公式来求θ0和θ1。如前所述,θ0和简单线性回归中的θ1是拟合线的系数。我们可以使用一个简单的方程来估计这些系数。也就是说,假设它是一个只有两个参数的简单线性回归,知道θ0和θ1是截距直线的斜率,我们可以直接从我们的数据中估计它们。它要求我们计算独立和从属或数据集中的目标列。请注意,所有数据都必须可用于遍历和计算参数。可以看出,截距和斜率可以使用这些方程来计算。我们可以从估计θ1的值开始。这是如何根据数据找到直线的斜率。X bar是数据集中引擎大小的平均值。请考虑我们这里有九行,从0到8行。首先计算x1和y的平均值,然后我们把它代入斜率方程,得到θ1。方程中的xi和yi指的是我们需要在数据集中的所有值中重复这些计算。i是指x或y的第i个值。应用所有的值,我们发现θ1等于39。这是我们的第二个参数。用于计算第一个参数这是直线的截距。现在我们可以把θ1代入直线方程,得到θ0。很容易计算出θ0等于125.74。这是线路的两个参数,其中θ0也称为偏差系数,以及θ1是二氧化碳排放柱的系数。作为旁注,您确实不需要记住以下公式:计算这些参数,因为大多数库都用于机器学习在Python中,R和Scala可以很容易地为您找到这些参数。但了解它的工作原理总是很好的。

现在,我们可以写下直线的多项式。因此,我们知道如何找到最适合我们的数据及其方程。现在的问题是我们如何用它来预测新车的排放量基于其发动机尺寸?在我们找到线性方程的参数后,进行预测就像解一组特定输入的方程一样简单。假设我们正在预测二氧化碳排放量或y,根据发动机尺寸,或记录编号9中汽车的x。我们的线性回归模型表示这个问题是yhat=theta0+theta1x1。或者如果我们将其映射到数据集,它将是二氧化碳排放=θ0+θ1发动机尺寸。正如我们看到的,我们可以找到θ0,θ1使用我们刚才讨论的方程。一旦找到,我们可以插入线性模型的方程。例如,让我们使用θ0=125和θ1=39。因此,我们可以将线性模型重写为二氧化碳排放等于125加39发动机尺寸。现在,让我们插入数据集的第9行,然后计算发动机尺寸为2.4的汽车的二氧化碳排放量。因此,二氧化碳排放=125+39×2.4。因此,我们可以预测这辆车是218.6。

让我们谈谈为什么线性回归如此有用。很简单,它是使用和理解的最基本的回归。事实上,线性回归如此有用的一个原因是它很快。它也不需要调整参数。比如调整K参数和K最近邻,或者神经网络中的学习速率是不值得担心的。线性回归也很容易理解,并且很容易解释。

Python机器学习简单线性回归 推荐

领券有优惠