0

我一直在寻找一种方法来计算当数据集不是正态分布时训练分类模型所需的最小样本数Ne(min) 。一篇研究论文提出以下建议:

如果数据不是正态分布,则假定 d 和 N 之间存在指数关系,并且所需的样本数量可能如下所示:
Ne(min) = Dsteps^d
其中Dsteps是每个特征的离散步数.
d:数据集的维度。
....
考虑直方图方法来理解这种关系很有用。如果我们想从每个 bin 中至少有一个样本并且每个特征有Dsteps离散步骤的数据构建直方图,我们将需要至少Dsteps ^d 个样本。
在这种情况下,准确建模数据所需的样本数是 d 的指数函数。

如果有人能帮助我获得/计算这个度量,我将非常感激:每个特征的离散步数
使用 R 或 Matlab 代码进行解释会非常有帮助。谢谢 :D

编辑:
论文参考:Christiaan Maarten Van Der Walt:表征分类问题的数据度量,2008 年。

4

0 回答 0