在Sebastian Thrum 的这段视频中,他说监督学习使用“标记”数据,而无监督学习使用“未标记”数据。他这是什么意思?谷歌搜索“标记数据与未标记数据”会返回一堆关于该主题的学术论文。我只想知道基本的区别。
7 回答
通常,未标记的数据由自然或人工制品的样本组成,您可以相对容易地从世界上获得这些样本。未标记数据的一些示例可能包括照片、录音、视频、新闻文章、推文、X 射线(如果您正在处理医疗应用程序)等。对于每条未标记数据都没有“解释”——它只包含数据,没有别的。
标记数据通常采用一组未标记数据,并使用某种有意义的“标签”、“标签”或“类别”来扩充每个未标记数据,这些“标签”或“类别”以某种方式提供信息或希望知道。例如,上述类型的未标记数据的标签可能是这张照片是马还是牛,在这段录音中说出了哪些词,在这段视频中正在执行什么类型的动作,这篇新闻文章的主题是什么就是,这条推文的整体情绪是什么,这张x光片中的点是否是肿瘤等等。
数据标签通常是通过要求人类对给定的未标记数据(例如,“这张照片包含马还是牛?”)做出判断而获得的,并且比原始未标记数据获得的成本要高得多。
在获得标记数据集后,可以将机器学习模型应用于数据,以便可以将新的未标记数据呈现给模型,并且可以猜测或预测该未标记数据的可能标签。
机器学习中有许多活跃的研究领域,旨在整合未标记和标记的数据,以构建更好、更准确的世界模型。半监督学习尝试将未标记和标记数据(或更一般地说,只有一些数据点具有标签的未标记数据集)组合成集成模型。深度神经网络和特征学习是试图单独构建未标记数据模型的研究领域,然后将标签中的信息应用于模型的有趣部分。
监督学习使用的标记数据将有意义的标签或标签或类添加到观察(或行)。这些标签可以来自观察或向人们或专家询问数据。
分类和回归可以应用于监督学习的标记数据集。
机器学习模型可以应用于标记数据,以便可以将新的未标记数据呈现给模型,并且可以猜测或预测可能的标签。
然而,无监督学习使用的未标记数据 没有任何有意义的标签或与之相关的标签。 无监督学习的算法比监督学习更难,因为我们对数据或预期结果知之甚少,甚至一无所知。
聚类被认为是最流行的无监督机器学习技术之一,用于对数据点或某种相似的对象进行分组。
无监督学习的模型较少,可用于确保模型结果准确的评估方法也较少。因此,无监督学习创造了一个不太可控的环境,因为机器正在为我们创造成果。
机器学习中有许多不同的问题,所以我将选择分类作为一个例子。在分类中,标记数据通常由一袋多维特征向量(通常称为 X)和每个向量的标签 Y 组成,Y 通常只是对应于类别的整数,例如。(人脸=1,非人脸=-1)。未标记的数据缺少 Y 分量。在许多情况下,未标记的数据丰富且易于获得,但标记的数据通常需要人工/专家进行注释。
带标签的数据是一组带有一个或多个标签的样本。标记通常采用一组未标记的数据,并使用有意义的信息标签来扩充每个未标记的数据。例如,标签可能会指示一张照片是否包含一匹马或一头牛,在录音中说出了哪些词,在视频中正在执行什么类型的动作,新闻文章的主题是什么,整体情绪是什么推文是,X 射线中的点是否是肿瘤等。
我们可以说标签是定义明确的数据。例如。电子邮件、IP 地址等 而未标记的数据是未正确定义的数据。例如。自然模式,鸟类的迁徙模式等。单独的未标记数据确实有意义,但单独的标记数据可以理解。
为了更好地回答你的问题,我们先来定义一下什么是训练数据,“训练数据就是用来创建模型的准备好的数据。 ”
现在让我们定义什么是标记或监督学习:“您要预测的值实际上是在训练数据中。 ”这意味着来自训练数据的每条记录都包含所有必要的信息(特征和目标值)。
无标签或无监督学习:“您要预测的值不在训练数据中。 ”
旁注:两种方法都被使用,但公平地说,最常见的方法是监督学习。
在未标记的数据中,没有目标值(因变量)。我们使用无监督机器学习模型来生成目标/因变量,这基本上是将相似的数据组合在一起作为集群。