machine-learning - 对文本文档进行下采样

Question

我有两个类，第一类有 1000 个文档，第二类有 40000 个文档。文件由文本组成。我想在神经网络中使用这些文本。但是当然有一个不平衡的数据集问题。每个分类器都会将所有文档分类为第二类并说“我的准确率高达 97.5%。

您是否知道是否有任何实现可以检查第二类中的文档相似性以及将它们聚类的种类，然后仅删除与其集群大小成比例的每个集群的文档？

或者您是否知道具有相同目标的类似方法？

score 2 · Accepted Answer

我从您的评论中了解到，您有 50k 份文档被标记为正面或负面情绪。您希望通过对文档进行聚类并从每个聚类中选择一小部分文档，将较大的类别从 40k 减少到 10k。

如果那是正确的，那么以下方法应该可以满足您的要求吗？

为 40k 文档生成 TF-IDF 表示。（您可以从您已经确定的关键字集中制作 TF-IDF 表示。）
应用凝聚层次聚类技术，直到只剩下 10k 个分支。您可以使用 TF-IDF 向量之间的余弦相似度作为相似度度量，并使用质心作为文档组的 TF-IDF 向量。（如果自己实现：请记住，您可以保留几乎所有轮次之间的成对相似度计算，否则您将进行大量不必要的重新计算！）
从包含多个文档的每个集群中，选择一个要保留的文档。

也就是说，我同意 gerowam 的观点，即随机下采样策略可能会更容易、更快，并且可能同样有效，但欢迎您尝试并报告。

1 回答 1