machine-learning - 应用 GloVe 嵌入后如何创建词袋特征向量？

Question

如果我有两条影评：

"this was a really good movie" and "i did not like this movie at all"

我对它们应用 GloVe 嵌入，我将得到两个向量，其中包含多个单词向量，如下所示：

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

基本上，评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组的长度可变，我不能将它们插入分类器。

我想过做某种词袋表示，但我不确定既然单词已经变成了数字，我将如何实现它。

score 0 · Accepted Answer

仅当您将单词作为离散单元使用时，词袋表示才有意义。如果您想使用 SVM 而没有神经网络，您可以使用嵌入来进行均值池化或最大池化（即，仅在句子长度上取平均值或最大值）。

在神经网络中，嵌入是使用 CNN 或 RNN 处理的，它们基本上保留重要信息并丢弃其余信息。由于您在 SVM 模型中没有类似的东西，因此合理的做法是删除停用词。

machine-learning - 应用 GloVe 嵌入后如何创建词袋特征向量？

1 回答 1

Related

Reference