7

例如:如果我想训练一个分类器(可能是 SVM),我需要收集多少样本?有没有测量方法?

4

3 回答 3

10

要知道您需要收集多少样本并不容易。但是,您可以按照以下步骤操作:

用于解决典型的 ML 问题:

  1. 用几个样本构建一个数据集 a,有多少?这取决于你遇到的问题,现在不要花很多时间。
  2. 将您的数据集拆分为训练、交叉、测试和构建模型。
  3. 现在您已经构建了 ML 模型,您需要评估它的好坏。计算你的测试误差
  4. 如果您的测试错误低于您的预期,请收集新数据并重复步骤 1-3,直到达到您满意的测试错误率。

如果您的模型没有遭受“高偏差”,则此方法将起作用。

Coursera 机器学习课程中的这段视频对此进行了解释

于 2014-07-15T08:24:30.147 回答
5

不幸的是,没有简单的方法。

经验法则是越大越好,但在实际使用中,您必须收集足够量的数据。足够我的意思是覆盖你认为可以接受的大部分建模空间。

此外,数量并不是一切。测试样本的质量也很重要,即训练样本不应包含重复。

就个人而言,当我没有一次获得所有可能的训练数据时,我会收集一些训练数据,然后训练一个分类器。然后我的分类器质量不可接受,我收集了更多的数据,等等。

是一些关于估计训练集质量的科学。

于 2014-07-15T08:25:25.397 回答
4

这在很大程度上取决于数据的性质和您尝试进行的预测,但作为一个简单的规则,您的训练数据应该大约是模型参数数量的 10 倍。例如,在训练具有 N 个特征的逻辑回归时,尝试从 10N 个训练实例开始。

有关“10 规则”的经验推导,请参阅 https://medium.com/@malay.haldar/how-much-training-data-do-you-need-da8ec091e956

于 2016-11-05T19:39:40.710 回答