machine-learning - 我应该使用 word2vec 进行词嵌入，包括测试数据吗？

Question

我是 NLP 的新人，我正在尝试做文本分类工作。在做这项工作之前，我知道我们应该做词嵌入。我的问题是我应该只对训练数据进行词嵌入工作（以便测试数据仅从训练数据的预训练 vec 模型中获取向量），还是同时对训练数据和测试数据进行？

score -1 · Accepted Answer

这是一个非常重要的问题。在 NN 社区中，人们通常做的是在训练集中使用一个阈值（即频率 < = 2），并用 UNK 令牌替换所有低于该阈值的单词。然后在测试的时候，如果有一个词与一个实际的训练集词不匹配，UNK 的表示就会替换它。

1 回答 1