0

我是 NLP 的新人,我正在尝试做文本分类工作。在做这项工作之前,我知道我们应该做词嵌入。我的问题是我应该只对训练数据进行词嵌入工作(以便测试数据仅从训练数据的预训练 vec 模型中获取向量),还是同时对训练数据和测试数据进行?

4

1 回答 1

-1

这是一个非常重要的问题。在 NN 社区中,人们通常做的是在训练集中使用一个阈值(即频率 < = 2),并用 UNK 令牌替换所有低于该阈值的单词。然后在测试的时候,如果有一个词与一个实际的训练集词不匹配,UNK 的表示就会替换它。

于 2016-05-23T03:21:41.487 回答