Python机器学习多元线性回归,本视频讨论了多元线性回归模型。多元线性回归是简单线性回归模型的推广,用于预测连续变量。它使用多个自变量来预测因变量的值。多元线性回归可以用于确定自变量对因变量的影响,也可以用于预测因变量的变化。为了找到最佳的参数,可以使用普通最小二乘法或优化算法。找到最佳参数后,可以使用线性回归模型进行预测。在选择自变量时,需要注意不要过度拟合模型。分类自变量可以通过将其转换为数值变量来合并到回归模型中。最后,需要检查自变量和因变量之间的线性关系,如果关系不是线性的,则需要使用非线性回归模型。

 

在这个视频中,我们将讨论多元线性回归。如您所知,有两种类型的线性回归模型,简单回归和多元回归。简单线性回归是当用一个自变量来估计因变量。例如,使用发动机尺寸变量预测二氧化碳排放。

在现实中,有多个变量可以预测二氧化碳排放。当存在多个自变量时,这个过程称为多元线性回归。例如,使用发动机尺寸和汽车发动机中的气缸数。我们在本视频中的重点是多元线性回归。

好的方面是多元线性回归是简单线性回归模型的推广。所以,我建议你通过如果你还没有看过简单的线性回归视频。

在我们深入研究样本数据集并了解多元线性回归的工作原理之前,我想告诉你它能解决什么样的问题,当我们应该使用它时,特别是,用它我们可以回答什么样的问题。

基本上,多元线性回归有两种应用。首先,当我们想确定自变量对因变量的影响。例如,复习时间、考试焦虑、出勤率和性别对学生的考试成绩有什么影响?其次,它可以用于预测变化的影响,即,了解因变量如何变化当我们改变自变量时。例如,如果我们正在查看一个人的健康数据,多元线性回归可以告诉您那个人的血压上升或下降每单位增加或减少保持其他因素不变的患者体重指数。

与简单线性回归的情况一样,多元线性回归是一种预测连续变量的方法。它使用多个变量,称为自变量或预测器最好地预测目标的价值变量,也称为因变量。在多元线性回归中,目标值Y,是自变量X的线性组合。例如,你可以预测一辆汽车可能产生多少二氧化碳由于汽车发动机尺寸等自变量,气缸数量和燃油消耗量。

多元线性回归非常有用,因为您可以检查哪些变量是结果变量的显著预测因素。此外,您还可以了解每个功能如何影响结果变量。同样,就像简单线性回归中的情况一样,如果您设法构建这样的回归模型,你可以用它来预测一个未知的案例,如第九号记录。

通常,模型的形式是y,它等于θ0,加θ1×1,加上θ2×2,依此类推,高达θn×n。在数学上,我们也可以将其表示为向量形式。这意味着它可以显示为两个向量的点积;参数向量和特征集向量。

通常,我们可以将多维空间的方程表示为θ转置x,其中θ是多维空间中未知参数的n乘1向量,x是特征集的向量,因为θ是系数的向量,并且是假设乘以x。通常,它被表示为转置θ。θ也称为回归方程的参数或权重向量。这两个术语都可以互换使用,x是表示汽车的特征集。例如,x_1表示发动机尺寸,x_2表示气缸,依此类推。功能集的第一个元素将设置为1,因为它将θ0转化为截距或偏置参数,当向量乘以参数向量时。

请注意,θ转置了x一维空间是直线的方程,它是我们在简单线性回归中使用的。在更高的维度中,当我们有多个输入时或者x,这条线被称为平面或超平面,这就是我们用于多元线性回归的。因此,整个想法是为我们的数据找到最适合的超平面。为此,正如线性回归中的情况一样,我们应该估计θ向量的值,即最好地预测每行中目标字段的值。为了实现这一目标,我们必须使预测的误差最小。现在,问题是,如何找到优化的参数?

为了找到我们模型的优化参数,我们应该首先了解优化的参数是什么,然后我们将找到一种优化参数的方法。简而言之,优化的参数是那些导致误差最小的模型的参数。假设我们已经找到了模型的参数向量,这意味着我们已经知道θ向量的值。现在我们可以使用f的模型和特征集Y等于196。预测值与实际值196的差异有多大?我们可以很简单地计算它196减去140,这当然等于56。这是我们的模型的错误,在我们的情况下,仅适用于一排或一辆汽车。就像线性回归中的情况一样,我们可以说这里的误差是与数据指向拟合的回归模型。所有残差的平均值表示模型表示数据集的糟糕程度,它被称为均方误差,或MSE。

数学上,MSE可以用一个方程表示。虽然这不是暴露多元线性回归模型误差的唯一方法,这是最流行的方法之一。数据集的最佳模型是所有预测值的误差最小的模型。

因此,多元线性回归的目标是最小化MSE方程。为了最小化它,我们应该找到最好的参数θ,但如何呢?好的,我们如何找到多元线性回归的参数或系数?有许多方法可以估计这些系数的值。然而,最常见的方法是普通最小二乘法和最优化方法。普通最小二乘法试图估计通过最小化均方误差来确定系数。该方法使用数据作为矩阵,并使用线性代数运算来估计θ的最佳值。这种技术的问题是计算的时间复杂性矩阵运算,因为它可能需要很长时间才能完成。当数据集中的行数小于10000时,您可以将此技术视为一种选择。然而,对于较大的值,您应该尝试其他更快的方法。

第二种选择是使用优化算法来找到最佳参数。也就是说,您可以使用优化通过在训练数据上迭代地最小化模型的误差来获得系数。例如,可以使用梯度下降使用每个系数的随机值开始优化,然后计算错误并尝试将其最小化通过在多次迭代中系数的y变化。如果你有一个大的数据集,梯度下降是一种适当的方法。然而,请理解,还有其他估算方法您可以自己探索的多元线性回归的参数。找到模型的最佳参数后,你可以进入预测阶段。在我们找到线性方程的参数后,进行预测就像解一组特定输入的方程一样简单。假设我们正在预测二氧化碳排放或Y来自第九个记录中汽车的其他变量。我们的线性回归模型表示这个问题是y等于θ转置x。一旦找到参数,我们可以把它们代入线性模型的方程中。例如,让我们使用θ0等于125,θ1等于6.2,θ2等于14,依此类推。如果我们将其映射到数据集,我们可以将线性模型重写为二氧化碳排放量等于125加上6.2乘以发动机尺寸,加上14乘以圆柱体,依此类推。如您所见,多元线性回归估计预测因子的相对重要性。例如,它表明气缸具有更高的冲击力二氧化碳排放量与发动机尺寸的比较。

现在,让我们插入数据集的第九行,并计算发动机尺寸为2.4的汽车的二氧化碳排放量。因此,二氧化碳排放量等于125加上6.2乘以2.4,加上14乘以4,以此类推。我们可以预测,这辆特定汽车的二氧化碳排放量将为214.1。现在,让我来谈谈你可能会担心的一些问题对于多元线性回归已经有了。如您所见,您可以使用在多元线性回归中预测目标值的多个自变量。与使用相比,它有时会产生更好的模型简单的线性回归,使用只有一个自变量来预测因变量。现在的问题是如何,我们应该使用多个自变量进行预测吗?

我们应该使用数据集中的所有字段吗?是否将独立变量添加到多元线性回归模型总是提高模型的精度?基本上,在没有任何理论上的论证都可能导致飞越模型。飞越模型是一个真正的问题,因为它也是对于您的数据集来说很复杂,并且不够通用,无法用于预测。因此,建议避免使用多个变量进行预测。有不同的方法可以避免在回归中对模型进行过拟合,然而,这超出了本视频的范围。下一个问题是,自变量应该是连续的吗?基本上,分类自变量可以合并通过将它们转换为数值变量来转换为回归模型。例如,给定一个二进制变量,如汽车类型,手动汽车的代码为假零,自动汽车为假零。

最后一点,请记住,多元线性回归是一种特定类型的线性回归。因此,在因变量和每个自变量。有许多方法可以检查线性关系。例如,可以使用散点图,然后目视检查线性。如果散点图中显示的关系不是线性的,然后你需要使用非线性回归。

Python机器学习多元线性回归 推荐

领券有优惠