6

如何在 LSTM 中的词嵌入层之前应用 SMOTE 算法。

我有一个文本二进制分类的问题(好的(9500)或坏的(500)审查,总共有 10000 个训练样本,它是不平衡的训练样本),意思是当我使用带有预训练词嵌入的 LSTM(100 维空间每个单词)也是如此,所以每个训练输入都有一个字典的 id(当文本描述少于 50 个单词时,总共 50 个 id 和零填充,当描述超过 50 个字符时修剪为 50)。

以下是我的一般流程,

  • 输入 - 1000(批量)X 50(序列长度)
  • Word Embedding - 200(唯一词汇单词)X 100(单词表示)
  • 词嵌入层之后(LSTM 的新输入) - 1000(批量)X 50(序列)X 100(特征)
  • LSTM 1000 (batch) X 100 (units) 的最终状态
  • 应用最后一层 1000(batch) X 100 X [100(units) X 2 (output class)]

我只想在 SMOTE 的帮助下为差评生成更多数据

4

1 回答 1

1

我遇到了同样的问题。在 stackexchange 上找到了这篇文章,它建议调整类分布的权重而不是过采样。显然这是 LSTM / RNN 处理类不平衡的标准方法。

https://stats.stackexchange.com/questions/342170/how-to-train-an-lstm-when-the-sequence-has-imbalanced-classes

于 2021-07-30T08:42:27.773 回答