python-3.x - 如何在词嵌入层之前应用 SMOTE 技术（过采样）

Question

如何在 LSTM 中的词嵌入层之前应用 SMOTE 算法。

我有一个文本二进制分类的问题（好的（9500）或坏的（500）审查，总共有 10000 个训练样本，它是不平衡的训练样本），意思是当我使用带有预训练词嵌入的 LSTM（100 维空间每个单词）也是如此，所以每个训练输入都有一个字典的 id（当文本描述少于 50 个单词时，总共 50 个 id 和零填充，当描述超过 50 个字符时修剪为 50）。

以下是我的一般流程，

输入 - 1000（批量）X 50（序列长度）
Word Embedding - 200（唯一词汇单词）X 100（单词表示）
词嵌入层之后（LSTM 的新输入） - 1000（批量）X 50（序列）X 100（特征）
LSTM 1000 (batch) X 100 (units) 的最终状态
应用最后一层 1000(batch) X 100 X [100(units) X 2 (output class)]

我只想在 SMOTE 的帮助下为差评生成更多数据

score 1 · Accepted Answer

我遇到了同样的问题。在 stackexchange 上找到了这篇文章，它建议调整类分布的权重而不是过采样。显然这是 LSTM / RNN 处理类不平衡的标准方法。

https://stats.stackexchange.com/questions/342170/how-to-train-an-lstm-when-the-sequence-has-imbalanced-classes

python-3.x - 如何在词嵌入层之前应用 SMOTE 技术（过采样）

1 回答 1

Related