如何在 LSTM 中的词嵌入层之前应用 SMOTE 算法。
我有一个文本二进制分类的问题(好的(9500)或坏的(500)审查,总共有 10000 个训练样本,它是不平衡的训练样本),意思是当我使用带有预训练词嵌入的 LSTM(100 维空间每个单词)也是如此,所以每个训练输入都有一个字典的 id(当文本描述少于 50 个单词时,总共 50 个 id 和零填充,当描述超过 50 个字符时修剪为 50)。
以下是我的一般流程,
- 输入 - 1000(批量)X 50(序列长度)
- Word Embedding - 200(唯一词汇单词)X 100(单词表示)
- 词嵌入层之后(LSTM 的新输入) - 1000(批量)X 50(序列)X 100(特征)
- LSTM 1000 (batch) X 100 (units) 的最终状态
- 应用最后一层 1000(batch) X 100 X [100(units) X 2 (output class)]
我只想在 SMOTE 的帮助下为差评生成更多数据