Python机器学习逻辑回归简介,逻辑回归是一种用于分类的统计和机器学习技术,通过输入字段的值来预测分类结果。逻辑回归可以用于解决各种问题,如预测心脏病发作概率、预测患者死亡率、预测客户购买产品的可能性等。逻辑回归适用于目标字段是二进制字段、需要预测概率、数据是线性可分的,并且需要了解特征的影响的情况。
在研究逻辑回归时,我们将具体回答这三个问题。
什么是逻辑回归?
什么样的问题可以通过逻辑回归来解决?
在哪些情况下,我们使用逻辑回归?
接下来开始吧。
逻辑回归是一种用于分类记录的统计和机器学习技术基于输入字段的值的数据集的。假设我们有一个我们想要的电信数据集进行分析,以了解下个月哪些客户可能离开我们。这是历史客户数据,其中每一行表示一个客户。假设你是这家公司的分析师,你必须找出谁要离开?为什么?您将使用该数据集基于历史记录,并使用它来预测客户群中的未来流失。
数据集包括有关以下服务的信息:每个客户都已注册,客户帐户信息,人口统计信息关于客户,如性别和年龄范围,以及离开公司的客户在上个月内。该列称为搅动。
我们可以使用逻辑回归来为使用给定的特征预测客户流失。在逻辑回归中,我们使用一个或多个自变量,如任期、年龄、和收入来预测结果,如流失,我们称之为因变量表示客户是否将停止使用该服务。
逻辑回归类似于线性回归,但试图预测分类回归或离散目标字段,而不是数字字段。在线性回归中,我们可以尝试预测变量的连续值,如房价、患者的血压或汽车的燃油消耗。但在逻辑回归中,我们预测了一个二元变量,如是/否、真/假、成功或不成功,怀孕/未怀孕,等等,所有这些都可以编码为零或一。
在逻辑回归中,自变量应该是连续的。如果属于范畴,则应为虚拟或指标编码。这意味着我们必须将它们转换为某种连续值。
请注意,逻辑回归既可以用于二元分类,也可以用于多类分类。但为了简化本视频,我们将重点讨论二进制分类。
在解释逻辑回归的工作原理之前,让我们先来看看它们的一些应用。如上所述,逻辑回归是一种分类算法,因此它可以是用于不同的情况。例如,预测一个人在指定范围内心脏病发作的概率根据我们对此人年龄的了解,性别和体重指数。或者预测受伤患者的死亡率,或者预测患者是否具有给定的疾病,如糖尿病,基于观察到的患者特征,如体重,身高、血压和各种血液测试结果等。在营销环境中,我们可以使用它来预测客户购买的可能性产品或停止订阅,就像我们在客户流失示例中所做的那样。我们还可以使用逻辑回归来预测给定过程的失效概率,系统或产品。我们甚至可以用它来预测房主拖欠抵押贷款的可能性。这些都是可以使用逻辑回归解决的问题的好例子。
请注意,在所有这些例子中,我们不仅预测每个案例的类别,我们还度量了属于特定类的情况的概率。有不同的机器算法可以对变量进行分类或估计。问题是,我们什么时候应该使用逻辑回归?这里有四种情况,其中逻辑回归是一个很好的候选者。
首先,当数据中的目标字段是范畴字段或是二进制字段时。例如0/1、是/否、流失或无流失、正/负等。
其次,你需要你的预测的概率。例如,如果您想知道客户购买产品的概率是多少。逻辑回归返回给定样本的介于0和1之间的概率分数数据的。事实上,逻辑回归预测了该样本的概率,并且我们映射了案例到基于该概率的离散类。
第三,如果数据是线性可分的。逻辑回归的决策边界是直线、平面或超平面。分类器将决策边界一侧的所有点分类为属于一个阶级,而另一方的所有人都属于另一个阶级。例如,如果我们只有两个特征,并且没有应用任何多项式处理我们可以得到一个不等式,如θ0加θ1乘以x1加θ2乘以x2大于零,这是一个容易绘制的半平面。请注意,在使用逻辑回归时,我们还可以实现复杂的决策边界也使用多项式处理,这超出了这里的范围。
当您了解如何逻辑回归有效。
第四,您需要了解功能的影响。您可以根据物流的统计显著性选择最佳特征回归模型系数或参数。也就是说,在找到最佳参数后,特征X与权重θ1接近与特征相比,归零对预测的影响较小θ0的绝对值较大。事实上,它使我们能够理解独立变量的影响在控制其他自变量的同时,对因变量有影响。
让我们再次查看数据集。我们将自变量定义为X,因变量定义为Y。注意,为了简单起见,我们可以将目标值或依赖值编码为零或一。逻辑回归的目标是建立一个模型来预测每个样本的类别在这种情况下,是客户,以及每个样本属于的概率到一个阶级。
有鉴于此,让我们开始将问题形式化。X是我们在m×n的实数空间中的数据集。也就是说,对于m个维度或特征和n个记录,Y是我们想要的类预测,可以是零或一。理想情况下,逻辑回归模型,即所谓的Y-hat,可以预测客户的类别是一种,鉴于其特征X。也可以很容易地表明,客户处于零级的概率可以计算为1减去客户类别为1的概率。
Python机器学习逻辑回归简介 推荐