machine-learning - 监督学习，（ii）无监督学习，（iii）强化学习

Question

我是机器学习的新手。在阅读有关监督学习、无监督学习、强化学习的信息时，我遇到了以下问题并感到困惑。请帮助我在以下三个中确定哪一个是监督学习，无监督学习，强化学习。

什么类型的学习（如果有的话）最能描述以下三个场景：

(i) 为自动售货机创建硬币分类系统。为了做到这一点，开发人员从美国造币厂获得准确的硬币规格，并得出尺寸、重量和面额的统计模型，然后自动售货机使用该模型对其硬币进行分类。

(ii) 不是调用美国造币厂来获取硬币信息，而是提供一种算法，其中包含大量标记的硬币。该算法使用这些数据来推断自动售货机用来对其硬币进行分类的决策边界。

(iii) 计算机通过反复下棋并通过惩罚最终导致失败的动作来调整其策略来制定玩井字游戏的策略。

score 3 · Accepted Answer

(i) 无监督学习——因为没有可用的标记数据

(ii) 监督学习 - 因为您已经有可用的标记数据

(iii) 强化学习——你根据动作和动作的效果/回报来学习和重新学习。

score 2 · Accepted Answer

假设您将数据集表示为 matrix X。中的每一行X都是一个观察值（实例），每一列代表特定的变量（特征）。

如果你也有（并使用）y标签向量，对应于观察，那么这是监督学习的任务。涉及“主管”，表示哪些观察属于第 1 类，哪些属于第 2 类，等等。

如果您没有观察标签，那么您必须根据X数据集本身做出决定。例如，在硬币的示例中，您可能希望为硬币参数建立正态分布模型，并创建在硬币具有异常参数时发出信号的系统（因此可能是欺诈企图）。在这种情况下，您没有任何类型的主管会说什么硬币是好的，什么代表欺诈企图。因此，它是无监督学习任务。

在前面的 2 个示例中，您首先训练了模型，然后使用它，而无需对模型进行任何进一步的更改。在强化学习模型中，基于处理过的数据和结果不断改进。例如，寻求从 A 点到 B 点的路径的机器人可能首先计算移动参数，然后根据这些参数移动，然后分析新的位置并更新移动参数，以便下一步移动更准确（重复直到到达 B)。

基于此，我很确定您将能够找到这三种学习方式与您的项目之间的对应关系。

score 0 · Accepted Answer

在监督算法中，类别是预先确定的。这些类可以被认为是一个有限集，以前是由人类获得的。在实践中，某些数据段将被标记为这些分类。机器学习者的任务是搜索模式并构建数学模型。然后根据与数据本身的方差度量相关的预测能力来评估这些模型。文档中引用的许多方法（决策树归纳、朴素贝叶斯等）都是监督学习技术的示例。

没有为无监督学习者提供分类。事实上，无监督学习的基本任务是自动开发分类标签。无监督算法寻找数据片段之间的相似性，以确定它们是否可以被表征为形成一个组。这些组被称为集群，并且有一整套集群机器学习技术。

score 0 · Accepted Answer

我写了一篇关于 Perceptron for Novices 的文章。我已经用 Delta Rule 详细解释了监督学习。还描述了无监督学习和强化学习（简要）。有兴趣的可以去看看。

“人工神经网络（感知器）从自动驾驶汽车中检测汽车/行人的直观示例”

https://www.spicelogic.com/Blog/Perceptron-Artificial-Neural-Networks-10

machine-learning - 监督学习，（ii）无监督学习，（iii）强化学习

4 回答 4

Related

Reference