我有一个关于数据挖掘的问题。我有属于 4 个类的 74 个实例的数据集。由于每个类的数量不足以使用某些分类器(svm、rna、knn)获得良好的准确性,我需要“过采样”每个类的实例数。
我听说有一种方法可以做到这一点。它包括如下生成这些新实例:
new_instance <---- original_instance + u(epsilon)
但我对它没有更多的了解。
有人用这种方法“过采样”他的数据吗?
我有一个关于数据挖掘的问题。我有属于 4 个类的 74 个实例的数据集。由于每个类的数量不足以使用某些分类器(svm、rna、knn)获得良好的准确性,我需要“过采样”每个类的实例数。
我听说有一种方法可以做到这一点。它包括如下生成这些新实例:
new_instance <---- original_instance + u(epsilon)
但我对它没有更多的了解。
有人用这种方法“过采样”他的数据吗?
我从未使用过这种过采样方法,但我认为您可以在本文中找到有用的指针。
描述了几种过采样和欠采样。它应该可以帮助您找到更适合您的情况的方法。