Python机器监督学习与无监督学习,介绍了监督学习和无监督学习的概念。监督学习是通过使用标记数据集来训练模型,以预测未来实例的类别或值。无监督学习则是在未标记的数据集上训练模型,让模型自行发现隐藏信息。监督学习包括分类和回归,而无监督学习包括降维、密度估计和聚类等方法。无监督学习的模型评价较少,结果也较不可控。

监督学习是通过直接查看组成单词的方式来进行的。监督,意味着观察,并指导任务、项目或活动的执行。显然我们不会监督一个人,相反,将监督一个机器学习模型
也许能够产生像我们在这里看到的分类区域。那么,我们如何监督机器学习模型呢?我们通过教授模型来做到这一点,也就是说,我们向模型加载知识,以便我们可以让它预测未来的实例。但这引出了下一个问题,即我们究竟如何教授模型?我们通过使用标记数据集中的一些数据来训练模型来教授模型。重要的是要注意数据被标记,标记数据集是什么样的?

视频中这个例子取自癌症数据集。正如你所看到的,我们有一些患者的历史数据,我们已经知道每一行的类别。我们首先介绍一下这个表的一些组成部分。这里的名称称为团块厚度,细胞大小的均匀性,细胞形状的均匀性,边缘附着力等称为属性。这些列称为包含数据的特征。如果你绘制这些数据,并查看绘图上的单个数据点,它将具有所有这些属性该图表上的一行也称为观察值。

直接看数据的价值,你可以有两种。第一个是数字。在处理机器学习时,最常用的数据是数字。第二个是绝对的,这是它的非数字,因为它包含字符而不是数字。在本例中,它是分类的,因为该数据集是用于分类的。有两种类型的监督学习技术。它们是分类和回归。

分类是预测离散类标签或类别的过程。回归是预测的过程连续值而不是预测分类中的分类值。看看这个数据集。这与不同汽车的CO2排放量有关。这包括; 发动机尺寸、气缸、各种车型的燃料消耗量、二氧化碳排放量。给定这个数据集,您可以使用回归来预测通过使用发动机尺寸等其他字段来计算新车的二氧化碳排放量,或气缸数。既然我们知道监督学习的含义,您认为无监督学习意味着什么?是的,无监督学习正是顾名思义。我们不监督模型,但我们让模型自行发现人眼可能无法看到的信息。这意味着,无监督算法在数据集上进行训练,并根据未标记的数据得出结论。一般来说,无监督学习的算法难度较高与监督学习相比,因为我们对数据知之甚少甚至一无所知,或预期的结果。降维、密度估计、市场篮分析和聚类是使用最广泛的无监督机器学习技术。降维和/或特征选择,通过减少在这方面发挥重要作用冗余特征使分类更容易。

购物篮分析是一种建模技术基于这样的理论:如果你购买一组特定的物品,您更有可能购买另一组物品。密度估计是一个非常简单的概念主要用于探索数据以找到其中的某些结构。最后,聚类:聚类被认为是其中之一用于对数据点进行分组的最流行的无监督机器学习技术,或某种相似的物体。聚类分析在不同领域有许多应用,无论是银行希望根据某些特征对客户进行细分,或帮助个人组织他的团体,或她最喜欢的音乐类型。

一般来说,聚类主要用于发现结构,总结和异常检测。所以,回顾一下,监督之间的最大区别无监督学习是监督学习处理标记数据,而无监督学习处理未标记数据。在监督学习中,我们有用于分类和回归的机器学习算法。在无监督学习中,我们有聚类等方法。与监督学习相比,无监督学习的模型较少可用的评价方法较少以确保模型的结果准确。因此,无监督学习创造了机器的环境不太可控为我们创造成果。

 

Python机器监督学习与无监督学习 推荐

领券有优惠