0

我是机器学习的初学者,最近阅读了有关监督和非监督机器学习的内容。看起来监督学习是分类的同义词,无监督学习是聚类的同义词,是这样吗?

4

2 回答 2

3

不。

监督学习是当你知道正确的答案(目标)时。根据它们的类型,它可能是分类(分类目标)、回归(数字目标)或学习排名(序数目标)(这个列表并不完整,可能还有其他类型我忘记或不知道)。

相反,在无监督学习环境中,我们不知道正确的答案,我们试图推断,从数据中学习一些结构。无论是聚类数还是低维近似(实际上,降,人们可能会将聚类视为极端的一维降维情况)。同样,这可能与完整性相去甚远,但总体思路是关于隐藏结构,我们试图从数据中发现。

于 2015-01-19T16:08:54.567 回答
1

监督学习是当您标记训练数据时。换句话说,您有一个明确的目标来优化您的方法。

典型的(监督)学习任务是分类和回归:学习预测分类(分类)、数值(回归)值或排名(学习排名)。

无监督学习是一个奇怪的术语。因为大多数时候,这些方法并没有“学习”任何东西。因为他们会从中学到什么?你没有训练数据?

有很多无监督的方法不适合“学习”范式。这包括降维方法,例如 PCA(远远早于任何“机器学习”——PCA 是在 1901 年提出的,远早于计算机!)。其中许多只是数据驱动的统计数据(与参数化统计数据相反)。这包括大多数聚类分析方法、异常值检测……为了理解这些,最好跳出“学习”的心态。许多人难以理解这些方法,因为他们总是以学习中常见的“最小化目标函数 f”思维方式思考。

以 DBSCAN 为例。最流行的聚类算法之一。它不适合学习范式。它可以很好地解释为图论结构:(密度)连通分量。但它不会优化任何目标函数。它计算关系的传递闭包;但是没有最大化或最小化的功能。

类似地,APRIORI 发现频繁项集;出现次数超过 minsupp 的项目组合,其中 minsupp 是用户参数。这是一个非常简单的定义;但是当您拥有大量数据时,搜索空间可能会非常大。蛮力方法无法在可接受的时间内完成。因此 APRIORI 使用巧妙的搜索策略来避免不必要的硬盘访问、计算和内存。但学习中没有“更坏”或“更好”的结果。结果是否正确(完整)或不正确 - 无需对结果进行优化(仅在算法运行时)。

将这些方法称为“无监督学习”是在将它们挤压成一种它们不属于的心态。他们没有“学习”任何东西。既不优化功能,也不使用标签,也不使用任何类型的反馈。他们只是从数据库中选择一组对象:APRIORI 选择同时经常有 1 的列;DBSCAN 在密度图中选择连通分量。结果要么正确,要么不正确。

一些(但到目前为止不是全部)无监督方法可以形式化为优化问题。在这一点上,它们变得类似于流行的监督学习方法。例如,k-means 是一个最小化问题。PCA 也是一个最小化问题 - 实际上与线性回归密切相关。但情况恰恰相反。许多机器学习任务都转化为优化问题;并且可以使用通用统计工具来解决,这恰好在机器学习(例如线性规划)中非常流行。然后将所有“学习”部分包装到数据转换方式中,然后再将其输入优化器。在某些情况下,例如 PCA,发现了一种计算最优解的非迭代方法(在 1901 年)。所以在这些情况下,你不要

于 2015-01-19T20:38:28.367 回答