我正在针对分类问题训练机器学习模型。我的数据集是10000个观测值,包含37个分类类别。但是数据不平衡,我有一些类有100 个观察值,而其他一些类有3000和4000 个观察值。
在搜索了如何对此类数据进行一些特征工程以提高算法的性能之后。我找到了2个解决方案:
- 上采样意味着获得更多关于少数类的数据
- 下采样,这意味着删除关于多数类的数据
根据第一个解决方案:我有很多类有一些观察,所以它需要更多的数据和很长时间。所以这对我来说很难!
并且通过应用第二个:我认为所有类都会有一些观察结果,并且数据会非常小,因此算法很难概括。
那么我可以尝试解决这个问题的另一种解决方案吗?