Python在机器学习中的应用,我们将讨论如何使用Python进行机器学习。Python是一种流行且功能强大的通用编程语言,这种语言最近成为数据科学家的首选语言。您可以使用Python编写机器学习算法,而且效果非常好。然而,Python中已经实现了许多模块和库,这可以让你的生活变得更轻松。
引入Python包本课程,并在实验室中使用,为您提供更好的动手体验。
NumPy库
使用Python中的N维数组的数学库。它使您能够高效地进行计算。它比普通Python更好,因为它具有惊人的功能。
例如,对于使用数组、字典、,函数、数据类型和处理图像,您需要了解NumPy。
SciPy库
SciPy是数值算法和特定领域工具箱的集合,包括信号处理、优化等,统计数据等等。SciPy是一个很好的科学和高性能计算库。
Matplotlib库
Matplotlib是一个非常流行的绘图包,它提供2D绘图,以及3D绘图。关于这三个构建在Python之上的包的基本知识,对于想要处理现实世界问题的数据科学家来说,这是一笔不错的财富。
如果您不熟悉这些软件包,我建议您先学习Python的数据分析课程。本课程涵盖了这些软件包中的大部分有用主题。
Pandas库
Pandas库是一个非常高级的Python库,它提供了高性能、易于使用的数据结构。它具有许多数据导入、操作和分析功能。特别是,它提供了数据结构和操作数值表和时间序列的操作。SciKit Learn是一个用于机器学习库,是我们的重点掌握并且将在本课程中学习使用。
SciKit Learn库
由于我们将在实验中大量使用SciKit Learn,让我来解释更多关于它的信息,并告诉你为什么它在数据科学家中如此受欢迎。SciKit Learn是一个免费的Python编程语言机器学习库。它具有大部分分类,
回归和聚类算法
它设计用于Python数字和科学库:NumPy和SciPy。此外,它还包括非常好的文档。除此之外,使用SciKit Learn实现机器学习模型只需几行Python代码就非常简单。机器学习管道中需要完成的大多数任务已经在Scikit Learn中实现,包括数据的预处理,特征选择、特征提取、列车测试拆分,定义算法、拟合模型,调整参数、预测、评估和导出模型。
让我给你看一个例子,说明当你使用这个库时SciKit Learn是什么样子的。
你现在不必理解代码,只需看看只需几行代码就可以轻松地构建模型。基本上,机器学习算法受益于数据集的标准化。如果您的数据集中存在一些异常值或不同比例的字段,你必须修复它们。SciKit Learn的预处理包提供了几个常见的实用程序功能和要更改的变压器类别将原始特征向量转换为合适形式的向量进行建模。您必须将数据集拆分为训练集和测试集训练你的模型,然后分别测试模型的准确性。
SciKit Learn可以将数组或矩阵拆分为在一行代码中为您随机训练和测试子集。然后你可以设置你的算法。例如,可以使用支持向量分类算法构建分类器。我们调用我们的估计器实例CLF并初始化其参数。现在你可以用火车训练你的模型了通过将我们的训练集传递到拟合方法,CLF模型学习对未知病例进行分类。
然后我们可以使用我们的测试集来运行预测,结果告诉我们每个未知值的类是什么。此外,您还可以使用不同的指标来评估模型的准确性。例如,使用混淆矩阵来显示结果。最后,保存模型。
你可能会发现这些机器学习术语中的全部或部分令人困惑,但别担心,我们将在下面的视频中讨论所有这些主题。要记住的最重要的一点是使用SciKit Learn,只需几行代码就可以完成机器学习任务。
请注意,尽管这是可能的,如果你想使用NumPy或SciPy包来完成所有这些,那就不是那么容易了。当然,如果您使用纯Python编程来实现所有这些任务。
Python在机器学习中的应用 推荐