1

考虑最终使用梯度下降优化方法的任何情况。假设您已经成功创建了一个适合您的训练集并且运行良好的假设。一段时间后,你的算法会收到越来越多的新数据,它必须从中学习。

问题:1)这个算法可以继续被认为是有监督的吗?

2)如果是这样,有没有办法从新数据中学习而无需再次遍历所有(新+旧)数据?

4

1 回答 1

3

您的问题没有通用答案,因为这是机器学习中一个非常广泛的问题/问题,您应该研究两个主题:

  • 在线学习 - 这是可以从新数据中学习而无需完全重新学习的算法/模型系列。最简单的此类模型是朴素贝叶斯,但即使是支持向量机也可以通过这种方式进行训练
  • 概念漂移 - 这是一个更高级的主题,当不仅添加新数据而且旧数据可能会“错误”时出现(不再是实际的,真实的)

这两个问题有几十种方法(使用梯度下降并不重要,更重要的是您要拟合的确切模型),一切都取决于特定的数据集和应用程序。

所以总的来说:

  1. 如果您的问题似乎完全静止,没有随着时间发生真正的变化,并且您对结果感到满意,则可以忽略新数据
  2. 如果问题似乎相当稳定(波动很小)或者您对其准确性不满意 - 尝试在线学习(或者,如果对于您的特定模型这是不可能的 - 重新训练整个模型一段时间)
  3. 如果问题看起来非常动态(大波动) - 考虑概念漂移解决方案

是的,它仍然是监督学习,尽管也有用于处理概念漂移的半监督和非监督算法。

于 2013-09-28T13:07:40.297 回答