我有两个类,第一类有 1000 个文档,第二类有 40000 个文档。文件由文本组成。我想在神经网络中使用这些文本。但是当然有一个不平衡的数据集问题。每个分类器都会将所有文档分类为第二类并说“我的准确率高达 97.5%。
您是否知道是否有任何实现可以检查第二类中的文档相似性以及将它们聚类的种类,然后仅删除与其集群大小成比例的每个集群的文档?
或者您是否知道具有相同目标的类似方法?
我有两个类,第一类有 1000 个文档,第二类有 40000 个文档。文件由文本组成。我想在神经网络中使用这些文本。但是当然有一个不平衡的数据集问题。每个分类器都会将所有文档分类为第二类并说“我的准确率高达 97.5%。
您是否知道是否有任何实现可以检查第二类中的文档相似性以及将它们聚类的种类,然后仅删除与其集群大小成比例的每个集群的文档?
或者您是否知道具有相同目标的类似方法?
我从您的评论中了解到,您有 50k 份文档被标记为正面或负面情绪。您希望通过对文档进行聚类并从每个聚类中选择一小部分文档,将较大的类别从 40k 减少到 10k。
如果那是正确的,那么以下方法应该可以满足您的要求吗?
也就是说,我同意 gerowam 的观点,即随机下采样策略可能会更容易、更快,并且可能同样有效,但欢迎您尝试并报告。