0

我试图将 10000 个文本样本分类为 20 个类。其中 4 个类每个只有 1 个样本,我尝试 SMOTE 来解决这种不平衡,但我无法为只有一个记录的类生成新样本,尽管我可以为超过 1 个样本的类生成样本。有什么建议么?

4

1 回答 1

0

可以在此答案中找到有关 SMOTE 的一个很好的解释器(以及对您关于为什么它可能不适用于欠采样类的问题的潜在答案)。

我认为这个问题不能通过现成的数据增强策略轻松解决。一种可能性可能是简单地复制示例,但这不会为您的模型添加新信息。

以下是您也可以尝试的其他几种策略:

  1. William Wang 和 Diyi Yang 在 2015 年的这篇论文中描述了一种基于嵌入的增强技术(类似于 SMOTE 的理论,但在文本数据上效果更好)。
  2. 使用Marzieh Fadaee、Arianna Bisazza 和 Christof Monz 在 2017 年的这篇论文中描述的上下文化词嵌入在 #1 上更进一步。
  3. 使用 WordNetAug 等同义词替换库。
于 2020-03-16T20:04:50.150 回答