machine-learning - 什么是弱监督学习（自举）？

Question

我了解有监督学习和无监督学习之间的区别：

监督学习是一种使用标记数据“教授”分类器的方法。

无监督学习让分类器“自己学习”，例如，使用聚类。

但什么是“弱监督学习”？它如何对示例进行分类？

score 30 · Accepted Answer

更新的答案

正如下面的几条评论所提到的，情况并不像我最初在 2013 年写的那么简单。

普遍接受的观点是

弱监督 - 带有嘈杂标签的监督（维基百科）
半监督 - 只有一部分训练数据有标签（维基百科）

还有一些分类更符合我原来的答案，例如，Zhi-Hua Zhou 的 2017 A brief introduction to weakly supervised learning认为弱监督是一个总称

不完全监督——只有一部分训练数据有标签（同上）
不精确的监督 - 仅使用粗粒度标签给出训练数据时称为
不准确的监督——给定的标签并不总是真实的（上面的监督很弱）。

原始答案

简而言之：在弱监督学习中，您使用有限数量的标记数据。

如何选择这些数据，以及如何使用它取决于方法。一般来说，您使用有限数量的数据，这些数据很容易获得和/或产生真正的影响，然后学习其余的数据。我认为自举是一种可用于弱监督学习的方法，但正如 Ben 下面的评论所示，这不是一个普遍接受的观点。

例如，请参阅Chris Bieman 的 2007 年论文以获得很好的概述，它对自举/弱监督学习进行了以下说明：

引导，也称为自我训练，是一种旨在使用更少训练示例的学习形式，因此有时称为弱监督。Bootstrapping 从几个训练示例开始，训练一个分类器，然后使用该分类器产生的被认为是正例进行再训练。随着训练示例集的增长，分类器会改进，前提是没有太多的负例被错误分类为正例，这可能导致性能下降。

例如，在词性标注的情况下，通常会在 10,000 个单词上训练一个 HMM（或最大熵或其他）标注器，每个单词都有它的 POS。在弱监督标记的情况下，您可能只需使用 100 多个单词的非常小的语料库。你得到一些标注器，你用它来标注一个包含 1000 个单词的语料库，你在上面训练一个标注器，然后用它来标注更大的语料库。显然，你必须比这更聪明，但这是一个好的开始。（有关自举标记器的更高级示例，请参阅本文）

注意：弱监督学习也可以指带噪声标签的学习（这样的标签可以但不需要是自举的结果）

score 30 · Accepted Answer

弱监管是带有嘈杂标签的监管。例如，引导程序，其中引导程序可能会错误地标记某些示例。
远程监督是指不直接标记示例的训练信号；例如，从问答数据集中学习语义解析器。
半监督学习是指您拥有部分标记和部分未标记的数据集。
全监督学习是指每个数据点都有真实标签。

score 6 · Accepted Answer

这篇论文 [1] 定义了 3 种典型的弱监督类型：

不完全监督，其中只有一部分训练数据带有标签；（我认为这与半监督相同）
不精确的监督，训练数据只给出了粗粒度的标签；
和不准确的监督，给定的标签并不总是真实的。

[1] 周志华，弱监督学习简介，国家科学评论，第 5 卷，第 1 期，2018 年 1 月，第 44-53 页，https: //doi.org/10.1093/nsr/nwx106

score 1 · Accepted Answer

正如 Jirka 所描述的，弱监督需要对一个小的标记数据集进行初始（监督）训练，对更大的数据集进行预测，以及（无监督）将积极识别的实例（或其特征）合并到模型中（通过对扩大数据集或通过直接更新模型）。迭代（无监督）更新过程，直到达到某个目标。显然，如果初始预测器产生许多误报，这很容易出错，但在某些情况下，搜索空间可能会受到限制，因此通过弱监督获得的泛化不会（经常）失控，或者用户输入可以用于（弱）监督学习过程。为了提供一个补充的、非常成功的例子，而不是文本挖掘，PSI-BLAST迭代地细化蛋白质序列谱以识别远距离同源物。在本文中可以找到关于这种方法在这种情况下会出现什么问题的一个很好的概述。

machine-learning - 什么是弱监督学习（自举）？

4 回答 4

更新的答案

原始答案

Related

Reference