machine-learning - 具有不平衡数据的文本分类

翻译自：https://stackoverflow.com/questions/60699511 2020-03-16T02:07:04.797

226 次

0

我试图将 10000 个文本样本分类为 20 个类。其中 4 个类每个只有 1 个样本，我尝试 SMOTE 来解决这种不平衡，但我无法为只有一个记录的类生成新样本，尽管我可以为超过 1 个样本的类生成样本。有什么建议么？

1 回答 1

0

可以在此答案中找到有关 SMOTE 的一个很好的解释器（以及对您关于为什么它可能不适用于欠采样类的问题的潜在答案）。

我认为这个问题不能通过现成的数据增强策略轻松解决。一种可能性可能是简单地复制示例，但这不会为您的模型添加新信息。

以下是您也可以尝试的其他几种策略：

William Wang 和 Diyi Yang 在 2015 年的这篇论文中描述了一种基于嵌入的增强技术（类似于 SMOTE 的理论，但在文本数据上效果更好）。
使用Marzieh Fadaee、Arianna Bisazza 和 Christof Monz 在 2017 年的这篇论文中描述的上下文化词嵌入在 #1 上更进一步。
使用 WordNetAug 等同义词替换库。

于 2020-03-16T20:04:50.150 回答